第16章 无序分类变量的统计推断——卡方检验
通过前面的介绍可以知道,变量可以被分为连续性变量(定距、定比)和分类变量,后者又被细分为有序、无序变量两种。对于各组所在总体的定量变量(即连续性变量)的平均水平,可以使用t检验和方差分析方法进行比较,秩和检验则用于比较各组所在总体为有序分类变量的 分布情况是否相同。这里将要介绍的卡方检验主要用于无序分类变量的统计推断,是在应用的程度上可以和t检验相媲美的另一种常用检验方法。
连续变量 两组 t检验
多组 方差分析
分类变量 有序 秩和检验 无序 卡方检验
16.1 卡方检验概述
16.1.1 卡方检验的基本原理 1. 卡方检验的基本思想
卡方检验是以χ2分布为基础的一种常用假设检验方法, 它的无效假设为H0是:观察频数与期望频数没有差异。
卡方检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设,表示比较资料之间有显著差异;否则不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
2.卡方值的计算与意义
见复印资料 柯惠新等人编著《调查研究中的统计分析法》
卡方统计量,由于它最初是由英国统计学家Karl Pearson 在1900年首次提出的,因此也称之为Pearson χ2。
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。
3.卡方检验的样本量要求
一般认为,对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。
16.1.2 卡方检验的用途
卡方检验最常间的用途就是考察无序分类变量各水平在两组或多组之间的分布是否一致。实
1
际上,除了这个用途之外,卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面。
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量出现的概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
16.1.3 SPSS中的相应功能
1. 非参数分布检验中的卡方检验
准确地说,这里提供的就是检验某个分类变量各类的出现概率是否等于指定概率的分布检验。
2. 交叉表过程
主要用于针对两个/多个分类变量的交叉表进行其关联程度的卡方检验,并可进一步计算出关联程度指标等,上面提到的卡方检验用途中的后三项都可以在该过程中实现,而人们一般所说的卡方检验也就是指该过程中的相应功能。
--单样本案例:考察抽样数据的性别分布
--两样本案例:不同收入级别家庭的轿车拥有率比较 --两分类变量间的关联程度的度量 --一致性检验与配对卡方检验 --分层卡方检验
16.2 单样本案例:考察抽样数据的性别分布
从已知的样本数据出发,来判断总体各取值水平出现的概率是否与已知概率相符,即该样本是否的确来自已知总体的分布。这就是本节所说的单样本概率与总体率的比较,也有人称它为拟合问题,在统计学中可以利用(单样本)卡方检验来回答此问题。
在实践工作中,有许多单样本率与总体率进行比较的例子。如骰子是否公平,检验各面出现的概率是否各等于1/6;检验彩票中奖号码的分布是否均匀分布,以检验彩票开奖是否作弊;国家人口老龄化问题是否更严重了;某产品的市场占有份额是否较以前更大;某病的发病率是否较前降低等。
2
16.2.1 案例分析
例16.1 以卡方检验考察2007年4月的性别分布是否均衡。 “分析”——“非参数检验”——“卡方”菜单项
卡方检验
S2. 性别 男 女 总数 观察数 165 135 300 检验统计量 期望数 150.0 150.0 残差 15.0 -15.0 152/150+(-15)2/150=3 卡方 df 渐近显著性 S2. 性别 3.000 1 .083 a显著性P值为0.083,大于0.05,不显著,不能拒绝原假设。尚不能认为CCSS抽样数据的性别分布有差异。 a. 0 个单元 (.0%) 具有小于 5 的期望频率。单元最小期望频率为 150.0。 思考:自由度(df)=1是怎么计算得来的?
16.3 两样本案例:不同收入级别家庭的轿车拥有率比较
例16.2 在CCSS的分析报告中,所有受访家庭会按照家庭年收入被分为低收入家庭和中高收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同。
操作说明及结果解释
“分析”——“描述统计”——“交叉表”菜单项 行:家庭收入两级Ts9 列:是否拥有家庭轿车O1 单元显示:行百分比 统计量:卡方 确定
3
交叉表
家庭收入2级* O1. 是否拥有家用轿车 交叉制表 家庭收入2级 Below 48,000 计数 家庭收入2级 中的 % O1. 是否拥有家用轿车 有 32 9.6% 225 34.4% 257 26.0% 没有 303 90.4% 429 65.6% 732 74.0% 合计 335 100.0% 654 100.0% 989 100.0% Over 48,000 计数 家庭收入2级 中的 % 合计 计数 家庭收入2级 中的 % 家庭收入2级* O1. 是否拥有家用轿车 交叉制表 家庭收入2级 Below 48,000 计数 期望的计数 家庭收入2级 中的 % O1. 是否拥有家用轿车 有 32 87.1 9.6% 225 169.9 34.4% 257 257.0 26.0% 没有 303 247.9 90.4% 429 484.1 65.6% 732 732.0 74.0% 合计 335 335.0 100.0% 654 654.0 100.0% 989 989.0 100.0% Over 48,000 计数 期望的计数 家庭收入2级 中的 % 合计 计数 期望的计数 家庭收入2级 中的 %
首先给出的是家庭收入级别和轿车拥有情况的交叉表,可见低收入家庭中只有10%拥有轿车,而中高收入家庭中有34%拥有轿车,样本数据的差异很明显,但该差异是否具有统计学意义尚需进行检验。
4
卡方检验 Pearson 卡方 连续校正 似然比 Fisher 的精确检验 线性和线性组合 有效案例中的 N b值 71.134 69.848 80.146 adf 1 1 1 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) .000 .000 .000 .000 .000 71.062 989 1 .000 a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 87.05。 b. 仅对 2x2 表计算
上表为卡方检验结果表。最下方的脚注内容:在该4格表中,没有单元格(0%)的期望频数小于5,其中期望频数最少的那个单元格的期望频数为87.05。该脚注充分说明,本样本的样本量(及其单元格分布)完全满足Pearson卡方的要求,因此可以放心地阅读最常用的Pearson卡方的检验结果。
对表中呈现的其他几种统计值不做掌握要求。
16.4 两分类变量间关联程度的度量
卡方检验可以从定性的角度告诉用户两个变量是否存在关联,当拒绝H0时,在统计上有把握认为两个变量存在关联。但接下来的问题是,如果变量之间存在相关性,它们之间的关联强度有多大,有没有什么指标可以客观表示其大小?
16.4.1 相对危险度与优势比 在实际应用中,卡方值的大小可以粗略地反映两变量联系的强弱,但是这很难有更贴近实际的解释,只从从它的大小上获得一个关联强弱的印象。但是如果有一个指标能够告诉研究者:男性购买该产品的可能性是女性的3倍,这就非常容易理解。
相对危险度(Relative Risk, RR)和优势比(Odds Ratio, OR,也可翻译成比数比)就可以满足这一要求。它们与其他关联测量参数的最大不同之处在于,RR值和OR值关心的是,行变量某一水平和列变量某一水平相对于基础水平的关联程度,即不同水平间的比较,而上述的关联测量参数关心的则是行变量各水平和列变量各水平的关联程度。
1. 相对危险度
RR值是一个概率的比值,是指实验组人群反应阳性概率与对照组人群反应阳性概率的比值。用公式表示为:RR=Pt/ Pc = a/nt / c/nc
其中,Pt为实验组人群反应阳性概率,Pc为对照组人群反应阳性概率,nt为实验组总人数,a为实验组反应阳性人数,nc为对照组总人数,c为对照组反应阳性人数。RR值用于反映实验因素与反应阳性的关联程度。取值范围从0到无限大。数值为1时,表明实验因素与反应阳性无关联;小于1时,表明实验因素导致反应阳性的发生率降低;大于1时,表明实验因素导致反应阳性的发生率增加。
5
2. 优势比
显然,RR的解释非常容易理解,但是RR的计算要求得到的反应概率,由于在回顾性研究中,很难求得人群反应概率的估计值,因此也无法计算RR值的估计,此时研究者往往使用OR值代替RR值,来反映实验因素与对照因素的关联强度。OR值是一个比值的比,是反应阳性人群中实验因素有无的比率与反应阴性的人群中实验因素有无的比例之比。计算公式可以表示为:
OR=a/b / c/d = ad/bc
其中,a为反应阳性组实验组人数,b为反应阳性组对照组人数,c为反应阴性组实验组人数,d为反应阴性组控制组人数,显然,如果OR大于1,则说明该实验因素更容易导致结果为阳性,或者说,采用的实验因素和结果为阳性有关联。
16.4.2 案例:计算家庭收入级别和轿车拥有情况的关联程度
16.3节中已经对家庭收入级别和轿车拥有情况的4格表做了卡方检验,结果显示两者之间存在联系,中高收入家庭的轿车拥有比例更高。此外,我们还可以使用RR和OR等一系列指标来对其关联程度加以定量描述。利用SPSS软件直接求得相应的数值。 -“分析”——“描述统计”——“交叉表”菜单项 -行:家庭收入两级 -列:是否拥有家庭轿车 -统计量:选中“风险” -确定
6
家庭收入2级* O1. 是否拥有家用轿车 交叉制表 家庭收入2级 Below 48,000 计数 家庭收入2级 中的 % O1. 是否拥有家用轿车 有 32 9.6% 225 34.4% 257 26.0% 没有 303 90.4% 429 65.6% 732 74.0% 合计 335 100.0% 654 100.0% 989 100.0% Over 48,000 计数 家庭收入2级 中的 % 合计 计数 家庭收入2级 中的 % 风险估计 95% 置信区间 家庭收入2级 (Below 48,000 / Over 48,000) 的几率比 用于 cohort O1. 是否拥有家用轿车 = 有 用于 cohort O1. 是否拥有家用轿车 = 没有 有效案例中的 N 989 1.379 .278 值 .201 下限 .135 上限 .300 .196 .392 (1)优势比OR是两个比数的比。某个事件的比数是它发生的概率除以不发生的概率。在本例中,低收入家庭拥有轿车的比数是9.6% / 90.4%=0.106,中高收入家庭拥有家庭轿车的比数是34.4% / 65.6%=0.524,则OR值(即优势比)等于0.106 / 0.524=0.201,该指标的95%CI同样不包括1,说明该数值的确是不等于1的(有统计学差异)。 1.291 1.472 (3)相应地,两组家庭不拥有家庭轿车的概(2)对于不同收入的家庭而言,其拥有家庭轿 率则是两个人群不用有轿车的概率之比,其车的相对危险度是两组人群拥有轿车的概率之估计值为90.4% / 65.6%=1.379,即低收入家比,其估计值是 9.6% / 34.4%=0.278,即低收入庭不拥有轿车的概率是中高收入家庭的家庭拥有轿车的概率是中高收入家庭的0.278 1.379倍(当然,从这个案例背景而言,更应倍,或者倒过来讲,中高收入家庭拥有轿车的 关心的是0.278这个数据),该数值的95%CI概率是低收入家庭的1/0.278=3.597倍。且其同样也不包括1。 95%CI不包括 1,具有统计学意义。
上述三个指标的假设检验实际上完全等价,此外,OR的数值也等于有车与无车的相对危险度的比值0.278 / 1.379=0.201。
7
小结:
卡方检验从定性的角度指出是否存在相关性,而各种关联指标从定量的角度指出相关的程度如何。不同的指标适用于不同类型的变量。
(1)RR值是一个概率的比值,是指实验组人群反应阳性的概率与对照组人群反应阳性概率的比值,用于反映实验因素与反应阳性的关联程度。
(2)OR值是比值的比,是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比。
(3)在SPSS中,在交叉表过程的“统计量”子对话框中风险复选框会自动给出OR与RR的值。
8