17. 交叉表与多选题
(一)基本理论
分类变量包括无序分类变量、有序分类变量、多选题变量集。
对于分类变量的描述统计,主要是对分类变量各水平值分别进行频数和比例计算,再进步计算所需的一些相对频数指标。
一、单分类变量的统计描述
1. 频数分布
分类变量的分析,首先要了解:各类别的样本数(频数),以及占总样本量的百分比;对有序分类变量,还需要了解:累积频数、累积百分比。
2. 集中/离散趋势
观察原始频数,或者使用众数。对于分类变量,集中/离散趋势是一体的。
3. 相对频数指标 (1)比(Riatio)
两个有关指标之比A/B, 用来反映相对的大小关系,例如,月销售额/销售人数;
(2)构成比
用于描述事物内部各构成部分所占的比重,例如,百分比、累积百分比;
(3)率(Rate)
率是具有时间概念或速度、强度意义的指标,表示某个时期内某事件发生的频率或强度,例如速率、频率、费率、发病率等。
二、多分类变量的联合描述
列联表。例如,r×c二维列联表: (1)共n个样本;
(2)按两种属性A、B,属性A有r个水平值:A1, …, Ar; 属性B有c个水平值:B1, …, Bc. 属性A=Ai,属性B=Bj的样本数为nij.
(3)ni. = “属性A=Ai”的合计数,n.j = “属性B=Bj”的合计数。
注:多分类变量对应高维列联表。
三、多选题的统计描述
多选题是调查问卷的常见题型,因为多选题是回答同一个大问题,所以不能割裂开来单独分析,需要做汇总处理。
1. 应答人数(Count)
选择各题项的人数,原始频数;
2. 应答人数百分比
选择该项的人数占总人数的百分比,可以反映该选项在人群中的受欢迎程度;
3. 应答人次(Response)
选择各选项的总人次,1个受访者选择2个选项,即2人次; 4. 应答次数百分比
在做出的所有选择中,选择该项的人次占总人次数的比例。
(二)SPSS实现
有某调查问卷的数据文件(部分):
变量属性:
一、单分类变量的描述——频率
变量“s4”表示学历:
问题1:描述受访者的学历分布情况
【分析】——【描述统计】——【频率】,将“学历”选入【变量】框,点【确定】得到
S4. 学历
初中/技校或以下 高中/中专 大专
有效
本科 硕士或以上 合计
292 57 1147
25.5 5.0 100.0
25.5 5.0 100.0
95.0 100.0
频率
154 313 331
百分比
13.4 27.3 28.9
有效百分比
13.4 27.3 28.9
累积百分比
13.4 40.7 69.6
注:详细操作见第15篇《频率图表》。
二、多分类变量的联合描述——交叉表
问题2:描述“性别”和“学历”的交叉频数分布
1. 【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将“性别”选入【行】框,将“学历”选入【列】框,勾选“显示复式条形图”