医学统计学
第一章 绪论
答案
名词解释:
(1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基
础上各观察单位(或个体)之间的差异。
(2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本
是从总体中随机抽取的部分观察单位。
(3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称
为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为样本统计量。
(4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误
差。
(5) 概率:是描述随机事件发生的可能性大小的数值,用p表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。
(7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称
为计数资料。。
(8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为
等级资料。
是非题:
1. × 2. × 3. × 4. × 5. √ 6. √ 7. ×
单选题:
1. C 2. E 3. D 4. C 5. D 6. B
第二章 计量资料统计描述及正态分布
答案
名词解释:
1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布
称为标准状态分布。
4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指
标范围称为指标的正常值范围。
填空题:
1. 计量,计数,等级
2. 设计,收集资料,分析资料,整理资料。
3. u????(变量变换)标准正态分布、0、1 ?4. ?? ?1.96? ?2.58? 68.27% 95% 99%
1
5. 47.5%
6.均数、标准差
7. 全距、方差、标准差、变异系数 8. ??1.96? ??2.58? 9. 全距 R
10. 检验水准、显著性水准、0.05、 0.01 (0.1) 11. 80% 90% 95% 99% 95% 12. 95% 99%
13. 集中趋势、离散趋势 14. 中位数
15. 同质基础,合理分组
16. 均数,均数,μ,σ,规律性 17. 标准差
18. 单位不同,均数相差较大 是非题:
1. × 2. √ 3. × 4. × 5. × 6. √ 7. √ 8. √ 9. √ 10. √ 11. √ 12. √ 13. × 14. √ 15. √ 16. × 17. × 18. × 19. √ 20. √ 21. √
单选题:
1. B 2. D 3. C 4. A 5. C 6. D 7. E 8. A 9. C 10. D 11. B 12. C 13. C 14. C 15. A 16. C 17. E 18. C 19. D 20. C 21. B 22. B 23. E 24. C 25. A 26. C 27. B 28. D 29. D 30. D 31. A 32. E 33. D 34. A 35. D 36. D 37. C 38. E 39. D 40. B 41. C 42. B 43. D 44. C 45. B
问答题:
1.均数﹑几何均数和中位数的适用范围有何异同? 答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5.
表2-5 均数,几何均数和中位数的相异点
平 均 数 意 义 应用场合
均 数 平均数量水平 应用甚广,最适用于对称分布,特别是正态分布 几何均数 平均增减倍数 ①等比资料;②对数正态分布资料
中位数 位次居中的观 ①偏态资料;②分布不明资料;③分布一端或两
察值水平 端出现不确定值
2.中位数与百分位数在意义上﹑计算和应用上有何区别与联系? 答: 1)意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
(2)计算:中位数和百分位数均可用同一公式计算,即 Px=L+(i/fx)(n·x%-ΣfL)
可根据研究目的选择不同的百分位数代入公式进行计算分析。
2
(3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考
值范围的确定。中位数常和其它分位数结合起来描述分布的特征,在实际工作中 更为常用。百分位数还可以用来描述变量值的离散趋势(四分位数间距)。 3.同一资料的标准差是否一定小于均数?
答:不一定。同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。 变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些? (1)样本含量的大小,样本含量越大,标准差越稳定。 (2)分组的多少
(3)分布形状的影响,偏态分布的标准差较近似正态分布大 (4)随机测量误差大小的影响
(5)研究总体中观察值之间变异程度大小
5.正态分布﹑标准正态分布与对数正态分布在概念上和应用上有何异同?
(1) 概念上:①相同点:正态分布、标准正态分布与对数正态分布都是变量的 连续型分布。其特征是:分布曲线在横轴上方,略呈钟型,以均数为中心,两边对称,均数处最高,两边逐渐减小,向外延伸,不与横轴相交。②相异点:表示方法不同,正态分布用N(μ,σ2)表示,标准正态分布用N(0,1)表示,对数
2
正态分布N(μlgX,σlgX)表示。
(2) 应用上:①相同点:正态分布、对数正态分布都可以转换为标准正态分布。 ②相异点:标准正态分布是标准正态变量u的分布,标准正态曲线下的面积唯一的由u决定,给应用带来极大方便。对医学资料呈偏态分布的数据,有的经对数变换后服从正态分布。正态分布、对数正态分布可描述变量值的分布特征,可用于正常值范围估计和质量控制等。正态分布是很多统计方法的理论基础。 6.医学中参考值范围的含义是什么?确定的原则和方法是什么?
含义:参考值范围亦称正常值范围,它是指特定健康状况人群(排除了有关疾病和因素对所研究指标有影响的所谓“正常人”不同于“健康人”概念)的解剖、生理、生化等数据绝大多数人的波动范围。 (2)原则:
① 抽取有代表性的足够例数的正常人群样本,样本分布越接近总体,所得结
果越可靠。一般认为样本含量最好在100例以上,以能得到一个分布较为稳定的样本为原则。
② 对选定的正常人进行准确而统一的测定,保证测定数据可靠是确定正常值
范围的前提。
③ 判定是否要分组(如男女、年龄、地区等) 确定正常值范围。 ④ 决定取双侧范围值还是单侧范围值。 ⑤ 选择适当的百分范围 ⑥ 确定可疑范围 ⑦ 估计界值
(3)方法:
① 百分位数法:Px=L+(i/fx)(n·x%-ΣfL) ② 正态分布法(对数正态分布):
双侧 X?u?Slg?1XlgX?u?SlgX??
3
百分位数法用于各种分布型(或分布不明)资料;正态分布法用于服从或近
似正态分布(服从对数正态分布)的资料。
7.对称分布资料在“均数±1.96倍标准差”的范围内,也包括95%的观察值吗? 答:不一定。均数±1.96倍标准差是正态分布的分布规律,对称分布不一定是正
态分布。
计算题:
1. 某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下:
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12
4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4074 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.86 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.04 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05
(1)编制频数分布表,简述其分布特征。 ① 找出最大值、最小值求全距(R):
全距=最大值-最小值=7.22-2.70=4.50(mmol/L)
② 求组距:I=全距/组数=4.52/10=0.452≈0.5(mmol/L) ③ 分组段,划记(表1-1)
表2-6 某地101例30~49岁健康男子血清总胆固醇值划记表 组段(mmol/L) 划记 频数 2.5~ 1 3.0~ 8 3.5~ 9 4.0~ 23 4.5~ 25 5.0~ 17 5.5~ 9 6.0~ 6 6.5~ 2 7.0~7.5 1
4
合计 101
由表2-6可知,本例频数分布中间局多,两侧逐渐减少,左右基本对称。
表2-7 某地101例30~49岁健康男子血清总胆固醇值(mmol/L)X、s计算表
血清总胆 组中值 频数 fX fX 累计 累计频数
固醇值 X f 频数 (实际)
2.5~ 2.75 1 2.75 7.563 1 0.0099 3.0~ 3.25 8 26.00 84.500 9 0.0891 3.5~ 3.75 9 33.75 126.563 18 0.1782 4.0~ 4.25 23 97.75 415.438 41 0.4059 4.5~ 4.75 25 118.75 564.063 66 0.6535 5.0~ 5.25 17 89.25 468.563 83 0.8218 5.5~ 5.75 9 51.75 297.563 92 0.9109 6.0~ 6.25 6 37.50 234.375 98 0.9703 6.5~ 6.75 2 13.50 91.125 100 0.9901 7.0~7.5 7.25 1 7.25 52.563 101 1.0000 478.25 2242.315 注:Xu为组段上限值
2
(2)计算均数X、标准s、变异系数CV。
由上计算表1-2可见:X??fX/?f?478.25/101=4.735(mmol/L) s??fX2?(?fX)2/?f?f?1
?2342.313?(478.25)2/101101?1=0.882(mmol/L)
CV=s/x?100%=0.882/4.735?100%=18.627%
(3)计算中位数M,并与均数X比较,利用前表计算中位数M M = L+(i/f50)(n?50%-ΣfL) =4.5+(0.5/25)(101?50%-41)=4.69(mmol/L)
5
本题算术均数为4.735(mmol/L),与中位数4.69(mmol/L)很接近,这也是
资料服从正态分布的特征之一。
(4)计算P2.5及P97.5并与X±1.96s的范围比较。 P2。5=3.0+(0.5/8)?(101?2.5%-1)=3.095(mmol/L)
P97.5=6.5+(0.5/2)?(101?97.5%-98)=6.619(mmol/L) X?1.96S=4.735±1.96?0.882=3.01~6.46(mmol/L)
用百分位数法求得101例30~49岁健康男子血清总胆固醇值95%分布范围
3.095~6.619(mmol/L),与正态分布法求得的95%分布范围3.01~6.46(mmol/L)基本一致。 (5)分别考察X?1S、X?1.96S、X?2.58S范围内的实际频数与理论分布是否基
本一致(表1-3)
表2-8 某地101例30~49岁健康男子血清总胆固醇值理论分布与实际分布比较
X?us 血清总胆固醇 实际分布 理论分布 人数 % % X?1s 3.85~5.62 72 71.29 68.27
X?1.96s 3.01~6.46 97 96.04 95.00 X?2.58s 2.46~7.01 100 99.01 99.00
由上表, X?1s范围内,实际分布与理论分布略有不同,而X?1.96s、
X?2.58s范围内,实际分布与理论分布基本一致。
(6)现测得一40岁男子的血清总胆固醇值为6.993(mmol/L),若按95%正常值
范围估计,其血清总胆固醇值是否正常?估计该地30~49岁健康男子中,还有百分之几的人血清总胆固醇值比他高?
前计算得95%正常值为3.01~6.46(mmol/L)现测得一40岁男子的血清总
胆固醇值为6.993(mmol/L),在95%范围以外,故属于异常
u=(X-μ)/σ=(6.993-4.735)/0.882=2.56
因ф(2.56)=ф(-2.56),查表1得ф(-2.56)=0.0052
估计该地30~49健康男子中约有0.52%的人血清总胆固醇值比他高。
2.某地卫生防疫站,对30名麻疹易感儿童经气溶胶免疫一个月后,测得其得血凝抑 制抗体滴度资料如表2-9第(1)(2)栏。
表2-9 平均滴度计算表
抗体滴度 人数f 滴度倒数X1 lgX1 flgX1
(1) (2) (3) (4) (5)=(2)×(4)
1:8 2 8 0.9031 1.8062 1:16 6 16 1.2041 7.2247
6
1:32 5 32 1.5051 7.5257 1:64 10 64 1.8062 18.0618 1:128 4 128 2.1072 8.4288 1:256 2 256 2.4082 4.8165 1:512 1 512 2.7093 2.7093 合计 30 50.5730
(1) 试计算其平均滴度。
由表1-4得,G=lg-1(50.5730/30)=lg-11.6858=48.5
该站30名麻疹易感儿童经气溶胶免疫一个月后,测得血凝抑制抗体平均滴度为
1:48.50
表2-10 平均滴度计算表
抗体滴度 人数f 滴度倒数X1 lgX1 flgX1 (1) (2) (3) (4) (5) = (2)?(4) 1﹕8 2 8 0.9031 1.8062
1﹕16 6 16 1.2041 7.2247 1﹕32 5 32 1.5051 7.5257 1﹕64 10 64 1.8062 18.0618 1﹕128 4 128 2.1072 8.4288 1﹕256 2 256 2.4082 4.8165 1﹕512 1 512 2.7093 2.7093 合计 30 50.5730 (2) 有人发现本例用抗体滴度稀释倍数和直接用滴度(原书误为倒数)算得对
数值的标准差相同,为什么?
表2-11 滴度对数值计算表
抗体滴度X2 人数f lgX2 flgX2 1﹕8 2 -0.9031 -1.8062 1﹕16 6 -1.2041 -7.2247 1﹕32 5 -1.5051 -7.5257 1﹕64 10 -1.8062 -18.0618 1﹕128 4 -2.1072 -8.4288 1﹕256 2 -2.4082 -4.8165 1﹕512 1 -2.7093 -2.7093 合计 30 -50.5730
1)由表1-4中数据计算标准差为:slgx1=lg-10.4444=2.7823 2) 由表1-5中数据计算标准差为:slgx2=lg-10.4444=2.7823
直接用抗体滴度的对数lgx2与稀释倍数的对数lgx1计算标准差是相等的,因为由上表可见lgx2=lg1-lgX1=-lgx1,而lgx1与-lgx1的离散程度是相同的,所以用抗体滴度稀释倍数和直接用滴度算得对数值的标准差是相同的。
3. 50例链球菌咽峡炎患者的潜伏期如表2-12,说明用均数、中位数或几何均数, 何者的代表性较好?并作计算。
表2-12 50例链球菌咽峡炎患者的潜伏期的中位数计算表
7
潜伏期(小时) 病例数f 累计频数 12~ 1 1 24~ 7 8 36~ 11 19 48~ 11 30 60~ 7 72~ 5 84~ 4 96~ 2 108~120 2 合计 50
本例目测频数分布为偏态分布,长尾拖向右侧,故为正偏态,宜用中位数及几 何均数表示其平均水平。
如上表,经计算中位数,几何均数、算术均数分别为:
M=54.55(小时),G=54.08(小时),X=58.56(小时)显然,算术均数受长潜伏期的影响使其偏大,中位数M与几何均数G接近,故描述链球菌咽峡炎患者潜伏期的集中趋势指标使用中位数M或几何均数G均可。
4.某市1974年为了解该地居民发汞的基础水平,为汞污染的环境监测积累资料,调查 了留住该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人,发汞含量 如表2-13:
表2-13 238人发汞含量频数计算表
发汞值 人数f 组中值X fX fX2 累计频数 累计频率
(μmol/kg)
1.5~ 20 2.5 50.0 125.00 20 8.40 3.5~ 66 4.5 297.0 1336.50 86 36.10 5.5~ 60 6.5 390.0 2535.00 146 61.34 7.5~ 48 8.5 408.0 3468.00 194 81.50 9.5~ 18 10.5 189.0 1984.50 212 89.08 11.5~ 16 12.5 200.0 2500.00 228 95.80 13.5~ 6 14.5 87.0 1261.50 234 98.32 15.5~ 1 16.5 16.5 272.25 235 98.74 17.5~ 0 18.5 0.0 0.00 235 98.74 19.5~21.5 3 20.5 61.5 1260.75 238 100.00 合计 238 1699.0 14743.50
(1).说明此频数分布的特征:可见发汞值的频数分布高峰位于第2个组段。前
4个组段的频数占总频数的81.5%,长尾拖向右侧,呈极度正偏态。
(2). 计算均数 和中位数M,何者较大?为什么?何者用语说明本资料的集中
位置较合适?
X??fX/?f=1699/238=7.139(μmol/kg) M =L+(i/f50)(n?50%-ΣfL)
=5.5+2/60(238?50%-86)=6.6(μmol/kg)
8
由计算结果得知,X?M其原因因为本例呈正态分布,均数计算结果受到少 数较大发汞值的影响,使得X偏向大发汞值一边.本例用中位数描述偏态资 料的集中趋势较好,它不受两端较大值和极小值的影响. (3). 选用何种指标描述其离散程度较好? 选用四分位数间距描述其离散程度较好. (4). 估计该地居民发汞值的95%参考值范围
本资料应选用单侧95%上界值,本例是正偏态分布.而且样本含量较大, n=238,保证获得一个较为稳定的分布,故采用百分位数法计算的参考值范 围较为合适.
P95=L+(i/f95)(n?95%-ΣfL)
=11.5+(2/16)(238?95%-212)=13.2625(μmol/kg)
第三章 均数的抽样误差与t检验
答案
填空题: 1. 标准误 2. 0.05,0.01 3. 假设检验,(显著性检验)
4. 两总体均数不同(越有理由说明有统计学意义) 5. 自由度大小
6. 一是准确度、二是精度
7. 抽样误差、样本均数、总体均数 8. 总体均数估计、假设检验
9. 第二类错误(Ⅱ型错误) β 是非题:
1. √ 2. × 3. × 4. × 5. √ 6. √ 7. × 8. √ 9. × 10. √ 11. √ 12. × 13. √ 14. √ 15. √ 16. √ 17. √ 18. √ 19. × 20. × 21. × 22. ×
单选题:
1. A 2. E 3. D 4. E 5. E 6. E 7. D 8. A 9. D 10. D 11. D 12. B 13. E 14. D 15. D 16. E 17. B 18. C 19. C 20. D 21. C
问答题:
1.标准差和标准误有何区别和联系?
表3-6 标准差与标准误的区别
标准差(α或s) 标准误(ax或sx)
意义上 描述一组变量值之间的离散趋势 描述样本均数间的离散趋势
9
应用上 ① s越小,表示变量值围绕 ① sx越小,表示样本均数与
均值分布越密集,说明均数 总体均数越接近,说明样本
的代表性越好。 均数推断总体均数可靠性越大。 ② 可用X?uas估计变量值分 ② 可用X?ta,vsx估计总体 布范围 均数可信区间
与n的关系 n越大,s越趋于稳定 n越大,sx越小 (2)联系
① 二者均是表示变异度大小的统计指标。
② 标准误?x??/n与标准差大小成正比,与抽样例数n的平方根成反
比。
③ 当n一定时,同一份资料,标准差越大,标准误也越大。
2.可信区间和参考值范围有何不同?
参考值范围是指同质总体中个体变量值的分布范围,如X±1.96s说明有
95%的变量值分布在此范围内,它与标准差的大小有关,若个体变异越大,该范围越宽,分布也就越散。而可信区间是指在可信度为(1-α)时,估计总体参数可能存在的范围。即从同一总体中随机抽样,当n一定时,每
抽一次即可得一个样本均值,以X?ta,vsx计算可信区间,如95%可信区间,
类似的随机抽样进行一百次,平均有95次,即有95个可信区间包括了总体均数,有5次没有包括括总体均数,5%是小概率事件,实际发生的可能性很小,因此实际应用中就认为总体均数在求得的可信区间。这种估计方法犯错误的可能性最大不超过5%。可信区间与标准误大小有关,标准误越大,可信区间则越大。
3.假设检验和区间估计有何联系?
假设检验和区间估计都属于统计推断的内容。假设检验用以推断总体参数间是否有质的区别,并可获得样本统计量,以得到相对精确的概率值。而可信区间用于推断总体参数的大小,它不仅可用以回答假设检验的问题,尚可比假设检验提供更多的信息。但这并不意味着用可信区间代替假设检验,因为假设检验可得到P值,比较精确地说明结论的概率保证,而可信区间只能告诉我们在某α水准上有无统计意义,却不能像P那样提供精确的概率。因此,只有将二者有机地结合起来,相互补充,才是完整的分析。
4.假设检验时,一般当P <0.05时,则拒绝H 0,理论依据是什么?
假设检验时,当P<0.05,则拒绝Ho,其理论依据是在Ho成立的条件下, 出现大于等于现有检验统计量的概率P<0.05,它是小概率事件,即在一次 抽样中得到这么小概率是事件是不大可能发生的,因而拒绝它。由此可见, 假设检验的结论是具有概率性的,它存在犯错误的可能性小于等于0.05。
5.t检验和方差分析的应用条件有何异同?
(1)相同点:在均数比较中,t检验和方差分析均要求各样本来自正态总体;各处理 组总体方差齐且各随机样本间相互独立,尤在小样本时更需注意。 (1) 不同点:t检验仅用于两组资料的比较,除双侧检验外,尚可
10
进行单侧检验,亦可计算一定可信度的可信区间,提示差别有无实际意义。而方 差分析用于两组及两组以上均数的比较,亦可用于两组资料的方差齐性检验。 6. 怎样正确使用单侧检验和双侧检验?
根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,两种可 能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或研究者仅关心 其中一种可能时,可选用单侧。一般来讲,双侧检验较稳妥故较多用,在预实验有 探索性质时,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出效率 高,但应慎用。
7. 第一类错误与第二类错误的区别及联系何在?了解这两类错误有何实际意义? (1)假设检验中Ⅰ、Ⅱ型错误的区别。
Ⅰ型错误是拒绝了实际上成立的Ho,也称为“弃真”错误,用α表
示。统计推断时,根据研究者的要求来确定。
Ⅱ型错误是不拒绝实际上不成立的Ho,也称为“存伪”错误,用β
表示。它只能与特定的H1结合起来才有意义,一般难以确切估计。
(2)Ⅰ、Ⅱ型错误的联系。
① 当抽样例数一定时,α越大,β越小;反之,α越小,β越大。 ② 统计推断中,Ⅰ、Ⅱ型错误均有可能发生,若要使两者都减小,
可适当增加样本含量。
③ 根据研究者要求,n一定时,可通过确定α水平来控制β大小。 (3)了解两类错误的实际意义。 ① 可用于样本含量的估计。
② 可用来计算可信度(1-α),表明统计推断可靠性的大小。 ③ 可用于计算把握度(1-β),来评价检验方法的效能等。 ④ 有助于研究者选择适当的检验水准。
⑤ 可以说明统计结论的概率保证。 计算题:
1. 某地抽样调查了部分成人的红细胞数和血红蛋白量,结果如表:
表3-7: 健康成人的红细胞和血红蛋白测得值及标准误与变异系数的计算 性别 例数 均数 标准差 标准值 变异系数(%) 标准误 红细胞数 男 360 4.66 0.58 4.84 12.45 0.0306 (×1012/L) 女 225 4.18 0.29 4.33 6.94 0.0182 血红蛋白 男 360 134.5 7.1 140.2 5.28 0.3742 (g/L) 女 255 117.6 10.2 124.7 8.67 0.6387 (1)说明女性的红细胞数与血红蛋白量的变异程度何者为大? 女性 CVRBC=S/x×100%=0.29/4.18×100%=6.49% CVHB=S/x×100%=10.2/117.6×100%=8.67%
由上计算可知该地女性血红蛋白量比红细胞数变异度大 (2)分别计算男﹑女两项指标的抽样误差。
见上表最后一栏,标准误计算公式sx?s/n。 (3)试估计该地健康成年男﹑女红细胞数的均数。
11
健康成年男子红细胞数总体均数95%可信区间为: X±1.96Sx=4.66±1.96×0.0306=4.60~4.72(1012/L)
其中n=360 故近似按υ=∞。同理健康成年女子红细胞数总体均数95%可信区间为4.14~4.22(1012/L)
(4)该地健康成年男﹑女间血红蛋白含量有无差别? Ho:μ男=μ女
H1:μ男≠μ女 α=0.05
u=(X1?X2)/(sx1?x2)?(134.5?117.6)/7.22/360?10.22/255=22.83 按υ=∞,查附表2,得P<0.0005,按α=0.05水准,拒绝Ho,接受H1,可 以认为男女间血红蛋白含量不同,男高于女。
2. 将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前及治疗后一个月
的血沉(mm/小时)如下表,问: (1)甲,乙两药是否均有效?
(2)甲,乙两药的疗效有无差别?
表3-8 甲,乙两药治疗前后的血沉
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 病人号 1 2 3 4 5 6 7 8 9 10 甲 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 药 治疗前 10 13 6 11 10 7 8 8 5 9 治疗后 6 9 3 10 10 4 2 5 3 3 差 值 4 4 3 1 0 3 6 3 2 6 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 病人号 1 2 3 4 5 6 7 8 9 10 乙 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 药 治疗前 9 10 9 13 8 6 10 11 10 10 治疗后 6 3 5 3 3 5 8 2 7 4 差 值 3 7 4 10 5 1 2 9 3 6 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ (1)甲,乙两药是否均有效? 经计算得:
甲药 d =3.2000(mm/h) 乙药 d =5.0000(mm/h) Sd =1.9322(mm/h) Sd =2.9810(mm/h) Sd=0.6110(mm/h) Sd =0.9428(mm/h) n=10 n=10 Ho:μd=0 Ho:μd=0 H1:μd≠0 H1:μd≠0 α=0.05 α=0.05 t(甲药)=d/ Sd=3.2000/0.6110=5.237 t(乙药)=d/ Sd=5.0000/0.9428=5.303
?=9,查t界值表,得P<0.001,按α=0.05水准,拒绝Ho,接受H1,故可认为 甲、乙两药均有效。
(2)甲,乙两药的疗效有无差别?
12
由表中资料分别求得治疗前后差值(见表3-8),再作两组比较。 H0 :甲乙两药疗效相同
H1 :甲乙两药疗效不同 α=0.05
2222(n?1)s?(n?1)s9?1.9322?9?2.98142122SC?1??6.3110n1?n2?210?10?22Sd1?d2?sc(1/n1?1/n2)?6.3110(1/10?1/10)?1.2622?1.1235 t?d1?d23.2?5.0???1.6022
Sd1?d21.1235?=18,查t界值表,得0.20>P>0.10,按α=0.05水准,不拒绝Ho,尚不 能
认为甲乙两药疗效有差别。
3. 将钩端螺旋体病人的血清分别用标准株和水生株作凝溶试验,测得稀释倍数如 下,问两组的平均效价有无差别?
标准株(11人)100 200 400 400 400 400 800 1600 1600 1600 3200 水生株(9人) 100 100 100 200 200 200 200 400 400 由题知:该资料服从对数正态分布,故得:
标准株 水生株 n=11 n=9
Xlgx1 =2.7936 Xlgx2 =2.2676 Slgx1 =0.4520 Slgx2 =0.2355 (1)两组方差齐性检验:
2H0:?2 1??22H1:?2 1??2? =0.05
22F=S大/S小?0.45202/0.23552?3.684
V1 =10 V2 =8 F0.05(10,8)=4.30
查附表3,得P>0.05,按α=0.05水准,不拒绝Ho,可以认为两总体方差齐。 (2)两组均数比较;
H0 两总体几何均数相等 H1 两总体几何均数不等 α=0.05
13
t??X1?X2?SX1?X2X1?X22SC(1/n1?1/n2)?X1?X22[(n1?1)s21/n1?1/n2)1?(n2?1)s2]/(n1?n2?2)(2.7936?2.2676[((11?1)0.4520?(9?1)0.2355)/(11?9?2)]?(1/11?1/9)22?3.149
查t界值表,得0.01>P>0.005,按α=0.05水准,拒绝Ho,接受H1,故可认为钩端螺旋体病人的血清用标准株和水生株作凝溶试验,前者平均抗体效价高于后者 4. 表3-9为抽样调查资料,可做那些统计分析?
表3-9 某地健康成人的第一秒肺通气量(FEV1)(L) FEV1 人 数 男 女 2.0~ 1 4 2.5~ 3 8 3.0~ 11 23 3.5~ 27 33 4.0~ 36 20 4.5~ 26 10 5.0~ 10 2 5.5~ 3 0 6.0~6.5 1 0 合计 118 100
(1)统计描述。
由上表可见,男性调查118人,第1秒肺通气量分布为2.0~6.5,高峰位于4.0~4.5组段内,以中间频数分布最多,两侧逐渐减少,左右基本对称,其频数分布可见上表和下图。女性调查100人,第1秒肺通气量分布为2.0~2.5,高峰位于3.5~4.0组段内,以中间频数分布最多,两侧逐渐减少,且左右大体对称,频数分布可见表3-9和图3-1。
14
40 男 女 30 20 10 0 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5
图3-1 某地健康成人第一秒肺通气量(FEV1)(L)分布
由上表和图可见,男性分布范围较宽,右侧尾部面积向外延伸两个组段,高峰 位置高于女性,向右推移一个组段。
(2)计算集中与离散趋势指标,并对两组进行比较。 Ho:男女间第1秒肺通气量总体均数相同 H1:男女间第1秒肺通气量总体均数不同 α=0.05
男性: n=118 X1=4.2373 s1=0.6902 女性: n=100 X2=3.7250 s2=0.6258
2u=(X1?X2)/sx1?x2?(X1?X2)/S12/n1?s2/n2
=(4.2373-3.7250)/0.69022/118?0.62582/100
=5.624
查t界值表,v=∞,得P<0.001,按α=0.05水准,拒绝Ho,接受H1,故可认为 男女间第1秒肺通气量均数不同,男高于女。 (3)根据上述分析结果,分别确定95%参考值范围。 男性第1秒肺通气量单侧95%参考范围下限为:
X?u0.05s=4.2373-1.645?0.6902=3.16 (L)
即可认为有95%的男性第1秒肺通气量不低于3.16(L) 女性第1秒肺通气量单侧95%参考范围下限为:
X?u0.05s=3.7250-1.645?0.6258=2.69 (L)
即可认为有95%的女性第1秒肺通气量不低于2.69(L)
5. 某医师就表3-10资料,对比用胎盘浸液钩端螺旋体菌苗对328名农民接种前, 后
15
(接 种后两月)血清抗体(黄疸出血型)的变化。
表3-10 328例血清抗体滴度及统计量
抗体滴度的倒数 0 20 40 80 160 320 640 1280 X s sx 免疫前人数 211 27 19 24 25 19 3 76.1 111.7 6.17 免疫后人数 2 16 57 76 75 54 25 23 411.9 470.5 25.90
t=(411.91-76.1)/25.92?6.172=12.6>3,查t界值故P<0.01,说明接种后血清抗体有增长。 试问:
(2) 本例属于何种类型设计?
本例属于自身配对设计。 (3) 统计处理上是否妥当?
统计处理上不妥当,因为:① 在整理资料过程中,未按配对设计整理,而是拆开 对子按成组设计整理,失去原设计的意义。② 统计描述指标使用不当,血清浓度 是按倍比稀释,不适合计算算术均数、标准差、因为有零值,也不宜计算几何均数。 对现已整理好的资料,可计算中位数表示平均水平,用四分位数间距表示离散趋势。 ③ 假设检验因本资料不宜计算均数,故对均数进行t检验当然是不妥当的。
6.152例麻疹患儿病后血清抗体滴度倒数的分布如下,试作总体几何均数的点值估计 和95%区间估计。
滴度倒数 1 2 4 8 16 32 64 128 256 512 1024 合计 人 数 0 0 1 7 10 31 33 42 24 3 1 152
以滴度倒数X的对数值求得X1gx =1.85965 ,Slgx=0.44245, n=152, 则点值估计G=lg-1 1.85965=72.39
患儿病后血清抗体滴度倒数总体均数95%可信区间为 lg-1(Xlgx+1.96Slgx/√n)
= lg-1(1.85965+1.96×0.44245/√152) = lg-1(1.78931276~1.92999206) =61.5~85.11
7.某医院对9例慢性苯中毒患者用中草药抗苯1号治疗:
(1)得表 白细胞总数(×109/L),问该药是否对患者的白细胞总数有影响?
表3-11 9例慢性苯中毒患者治疗前后的白细胞总数
16
病人号 治疗前 治疗后 d1 1 6.0 4.2 1.8 2 4.8 5.4 -0.6 3 5.0 6.3 -1.3 4 3.4 3.8 -0.4 5 7.0 4.4 2.6 6 3.8 4.0 -0.2 7 6.0 5.9 0.1 8 3.5 8.0 -4.5 9 4.3 5.0 -0.7 H0 该药对患者的白细胞总数无影响,即μd=0
H1 该药对患者的白细胞总数有影响,即μd≠0
α=0.05
求得(前—后)差值di 经计算得:
d =0.3556 Sd =1.9951 n=9 t=d?0/(sd/n)??0.3556/(1.9551/9)?0.534
?=8查附表2,t界值表,得P>0.5,按α=0.05水准,不拒绝Ho,尚不能认为该药对患者的白细胞总数有影响。
(2)同样得治疗后血小板比治疗前每人平均增加37.8×109/L,并算得
t=4.1,问该药是否对患者的血小板有影响? H0 该药对患者的血小板无影响,即μd=0
H1 该药对患者的血小板有影响,即μd≠0 α=0.05
d=37.8 t=4.1 ?=8
查附表2,t界值表,得0.005>P>0.002,按α=0.05水准,拒绝Ho,
接受H1,故可认为该药对患者的血小板有影响,可增加患者血小板。
(3)综合上述结果能否提出进一步研究意见/综合上述结果,提出以下建议: ① 在此项研究中,从t检验结果来看,血小板 治疗前后变化有意义, 而白细胞则无意义,可补充计算两项指标的95%可信区间,结合专 业知识,分析治疗前后指标差数有无实际意义。
② 如有可能扩大样本,追踪观察该药对苯中毒患者的远期疗效
第四章 方差分析
答案
填空题
1. 各样本是相互独立的随机样本,各样本来自正态总体, 处理组总体方差相等(方差齐性)
2. 总变异、组内变异、组间变异 SS总=SS组间+SS组内 3. q检验(又称Newman-Keuls法) 4. V总=SS组间+SS组内
17
是非题:
1. × 2. √ 3. × 4. √ 5. ×
单选题:
1. B 2. D 3. E 4. B 5. C 6. A
7. C 8. C
计算题:
1.某湖水不同季节氯化物含量测定值如表2-4所示,问不同季节氯化物含量有无差 别?
表4-1: 某湖水不同季节氯化物含量(mg/L)
春 夏 秋 冬 22.6 19.1 18.9 19.0 22.8 22.8 13.6 16.9 21.0 24.5 17.2 17.6 16.9 18.0 15.1 14.8 20.0 15.2 16.6 13.1 21.9 18.4 14.2 16.9 21.5 20.1 16.7 16.2
21.2 21.2 19.6 14.8 ∑
∑Хij 167.9 159.3 131.9 129.3 588.4 ni 8 8 8 8 32 X 20.99 19.91 16.49 16.16 8.39 ∑Х2ij 3548.51 3231.95 2206.27 2114.11 11100.84 S2i .5298 8.5555 4.5098 3.4712 5.0166
(1)多组均数间比较:
表1: 方差分析表
变异来源 SS v MS F 总 变 异 281.635 31
组间变异 141.170 3 47.057 9.380 组内变异 140.465 28 5.017
查F界值表,得P<0.01,按0.05水准,拒绝H0,接受H1,故可认为不同季
18
节湖水中氯化物含量不同或不全相同。
(2)各组均数间两两比较 H0 :μA=μB
H1 :μA≠μB α=0.05
表2 四个样本均数顺序排例
组 别 春 夏 秋 冬 X 20.99 19.91 16.49 1 位 次 1 2 3 4
表3 四组均数两两比较q检验
对比组 两均数之差 组数 q值 P值 1与4 4.83 4 6.099 <0.01 1与3 4.50 3 5.682 <0.01
1与2 1.08 2 1.364 >0.05 2与4 3.75 3 4.735 <0.01 2与3 3.42 2 4.319 <0.01 3与4 0.33 2 0.417 >0.05
春与夏、秋与冬湖水中氯化物含量P>0.05,按α=0.05水准不拒绝Ho,即尚不能 认为春与夏、秋与冬季湖水中氯化物含量有差别。除这两对比组外,其它4组均P <0.01,按α=0.05水准,拒绝Ho,接受H1,即可认为春夏两季湖水中氯化物含 量高于秋冬两季。
2.试就表4-2资料说明大白鼠感染脊髓灰质炎病毒后,再作伤寒或白日咳预防接种是 否会影响生存日数?
表4-2 各组大鼠接种后生存日数
伤寒 百日咳 对照
5 6 8 7 6 9
19
8 7 10 9 8 10 10 9 11 10 9 12 11 10 12 11 10 14
12 11 16 ∑
∑Хij 92 84 112 288 ni 10 10 10 30
Xi 9.2 8.4 11.2 9.6
2∑Xij 886 732 1306 2924
si2 4.400 2.933 5.733 4.3553
解Ⅰ:假定生存日数服从正态分布 (1)方差齐性检验:
2??32 Ho:三总体方差齐即?12??2H1:三总体方差不等或不全相等。
α=0.05
sc2??si2(ni?1)/(N?k)?9(4.4+2.933+5.733)/(30-3)=4.3553
2?(ni?1)ln(sc/si2) x?
??1?1/[3(k?1)]??1/(ni?1)?1/(N?k)2 ?9??ln(4.3353/4.4)?ln(4.3553/2.933)?ln(4.3553/5.733)?
1?1/?3(3?1)???3?1/9?1/(30?3)? =0.9461
v=2,查附表9,X2界值表,得0.75>P>0.50,按α=0.05水准,不拒绝Ho,故可认为三组资料总体方差齐。
(2)三组均数比较(表4-5)
Ho:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。 H1:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全 相等
α=0.05
C=(∑∑Χij)2/n=2882/30=2764.8 SS总=∑∑Χij2-C=2924-2764.8=159.2 SS组间=∑(∑Χij)2/ni-C
= [ 922+842+1122 ]/10-2764.8 = 41.6
SS组内= SS总-SS组间=159.2-41.6=117.6
表4-5 方差分析表
20
变异来源 SS v MS F 总变异 159.2 29
组间变异 41.6 2 20.8 4.776
组内变异 117.6 27 4.3556
查附表4,得0.05>P>0.01,在α=0.05水准上,拒绝Ho,接受H1,故
可以认为大白鼠感染脊髓灰质炎病毒后,在接种伤寒或百日咳菌苗对生存日数有影响。
(3)均数间多重比较:
Ho:任一组与对照组总体均数相同 H1:任一组与对照组总体均数不同 α=0.05
伤寒与对照组比较
t伤、对??((nX1?X221221?1)s?(n2?1)s)/(n1?n2?2)(1/n1?1/n2)?
=(11.2-9.2)/4.3556(1/10?1/10)
=2/0.933338
=2.1428
v=27,得0.05>P>0.02,按α=0.05水准,拒绝Ho,接受H1,故可认为接种伤寒菌苗组较对照组生存日数减少。 百日咳与对照组比较
t百、对?(11.2?8.4)/4.3556(1/10?1/10)?2.99998
v=27,查附表2,得0.01>P>0.005,按α=0.05水准,拒绝Ho,接受H1,可以认为接种百日咳菌苗组较对照组生存日数减少。
3.研究酵解作用对血糖浓度的影响,从8名健康人中抽取血液并制备了血滤液,没一个受试者的血滤液又分成4份,再随机地把4份血滤液分别放置0,45,90,135分钟,然后测定其中血糖浓度(mmol/L)
(1)4组血滤液方差齐性检验:
Ho:不同放置时间血滤液所含血糖浓度总体方差相等,
22??32??4即?12??2
H1:不同放置时间血滤液所含血糖浓度总体方差不等或不全相等
α=0.05
方差齐性检验方法同本例X2=1.16847
v=k-1=4-1=3,查附表9,X2界值表,得0.90>P>0.75,按α=0.05水 准,不拒绝Ho,可以认为放置不同时间血滤液所含血糖浓度总体方差齐。 表4-3 放置不同时间血滤液所含血糖浓度(mmol/L)
受试者编号 放置时间 受试者小计 0 45 90 135
1 5.27 5.27 4.49 4.61 19.64 2 5.27 5.22 4.88 4.66 20.03
21
3 5.88 5.83 5.38 5.00 22.09 4 5.44 5.38 5.27 5.00 21.09 5 5.66 5.44 5.38 4.88 21.36 6 6.22 6.22 5.61 5.22 23.27 7 5.83 5.72 5.38 4.88 21.81 8 5.27 5.11 5.00 4.44 19.82 ΣΧij 44.84 44.19 41.39 38.69 169.11
ni 8 8 8 8 8
Xi 5.6050 5.5238 5.1738 4.8363 5.2847
2∑Xij 252.1996 245.0671 215.0527 187.5585 899.8779
si2 0.1245 0.1389 0.1302 0.0634 0.1143
(2)配伍组设计方差分析:
处理:Ho:不同放置时间血滤液所含血糖浓度相同
H1:不同放置时间血滤液所含血糖浓度不同或不全相同相同 α=0.05
配伍:Ho:8位受试者血液所含血糖浓度相同
H1:8位受试者血液所含血糖浓度不同或不全相同 α=0.05
С=(ΣΣⅩij)2/n=169.112/32=893.6935 SS总=ΣΣⅩij2-С=899.8779-893.6935=6.1844
1SS放置时间=?(?Xij)2?C
b =(44.842+44.192+41.392+38.692)/8-893.6935 =2.98524 SS受试者=1/k?(?Xij)2?C
=1/4(19.642+20.032+22.092+21.092+21.362+23.272
+21.812+19.82)-893.6935
=2.79093
SS误差=SS总-SS放置时间-SS受试者
=6.1844-2.98524-2.79093=0.40832 方差分析表
变异来源 SS v MS F 总 变 异 6.1844 31
放置时间 2.98524 3 0.99508 51.189 受 试 者 2.79093 7 0.39870 20.510 误 差 0.40823 21 0.01944
查F界值表 F0.05(3,21)=3.07 F0.01(3,21)=4.87
F 0.05(7,21)=2.49 F 0.01(7,21)=3.64
放置时间受试者间均P<0.01,按α=0.05水准,均拒绝Ho,接受H1,故
22
可认为不同放置时间、不同受试者间血滤液所含血糖浓度不同或不全相同。
(3)不同放置时间血滤液所含血糖浓度均数间多重比较,采用多个实验组
与一个对照组均数间两两比较。
① Ho:放置45分钟与0分钟血滤液所含血糖浓度相同
H1:放置45分钟与0分钟血滤液所含血糖浓度不同 α=0.05 t?(5.6050?5.5238)/0.01944(1/8?1/8)
=0.0812/0.06971=1.16476
v=n-k=32-4=28,查附表2,t界值表,得0.40>P>0.20,按α=0.05水准,不拒绝Ho,尚不能认为放置45分钟与0分钟血滤液血糖浓度总均数有差别。
② Ho:放置90分钟与0分钟血滤液所含血糖浓度相同
H1:放置90分钟与0分钟血滤液所含血糖浓度不同 α=0.05
t?(5.6050?5.1783)/0.01944(1/8?1/8)
=0.4312/0.0697=6.1853
v=28,查附表2,t界值表,得P<0.001,按α=0.05水准,拒绝Ho,接受H1,可认为放置90分钟较0分钟血滤液所含血糖浓度减少。 ③ Ho:放置135分钟与0分钟血滤液所含血糖浓度相同
H1:放置135分钟与0分钟血滤液所含血糖浓度不同 α=0.05
t?(5.6050?4.8363)/0.01944(1/8?1/8)
=0.7687/0.0697 =11.0265
v=28,查附表2,t界值表,得P<0.001,按α=0.05水准,拒绝Ho,接受H1,故可认为放置135分钟较0分钟血滤液所含血糖浓度减少。
4.某医师为研究人体肾上腺皮质3??HSD (羟基类固醇脱氢酶)活性在四个季节中是 否有差别,采用分光光度计随机测定了部分研究对象,数据见表2.8,请做统计分析.
表4-4 四个季节的人体肾上腺皮质3??HSD活性
季节 n X S 春季 42 0.78 0.13 夏季 40 0.69 0.22 秋季 32 0.68 0.14
冬季 36 0.58 0.20
解: 本题仅给出分析思路及主要结果
1 . 采用完全随机设计资料的方差分析:
23
X?(1)由公式X?可推得
n?X?nX
n?s2(n?1)
由方差公式可推得?X?2(?X)2(2)计算SS总 SS组间 SS组内
SS总=5.365, SS组间= 0.777 SS组内=4.588 列出方差分析表
方差分析表
变异来源 SS v MS F 总变异 5.365 149
组间变异 0.777 3 0.2590 8.248 组内变异 4.588 146 0.0314 (4)确定P值,判断结果
查方差分析表,得P<0.01,在?=0.05水准上,拒绝Ho,接受H1 ,可以认为四个季节人体肾上腺皮质3??HSD (羟基类固醇脱氢酶)活性不同或不全相同.
2.进一步作均数间的多重比较分析(略)
第五章 相对数
答案
填空题
1. 比重和分布,频率与强度 2. 率
3. 消除混杂因素对结果影响 4. 率,构成比,相对比 5. 率的抽样误差 δx 是非题:
1. √ 2. × 3. √ 4. × 5. √ 6×. 7. × 8. × 9. × 10. × 11. ×
单选题: 1.D 2.E 3.A 4.D 5.A 6.B 7.D 8.A 9.D 10.D 11.B 12.E 13.A 14.C 15.E 16E. 17.E 18.B 19.A 20.A 21.C 22.D
计算题:
1. 表5-1(1)~(4)栏资料宜计算那些相对数指标?试对围产儿在围产期死亡的主
要因素作初步分析。
表5-1 不同体重,孕周,产次的围产儿死亡情况分析
因素 分组 出生数 死亡数 死亡构成比(%) 死亡率(%) (1) (2) (3) (4) (5) (6)
24
体重(g) 1000~ 10291 1234 51.18 119.91 2500~ 193261 1129 46.83 5.84 4000~ 5373 48 1.99 8.93 合计 208925 2411 100.00 11.54 孕周(周) <38 18178 2060 50.55 113.32 38~ 189937 1771 43.46 9.32 42~ 14013 244 5.99 17.41 合计 222128 4075 100.00 18.35 产次(次) 1 133290 1940 62.80 14.55 2 51596 739 23.92 14.32 3 7256 259 8.38 35.69 4 1786 82 2.65 45.91 ≥5 954 69 2.23 72.33 合计 194882 3089 100.00 15.85 先就上述资料计算了上表(5)~(6)栏两类指标。
由表中死亡率可知;体重低于2500g组围产儿死亡率约为2500g组的20倍;孕 周<38周组围产儿死亡率约为38周组的12倍;随着产妇的产次增加,围产儿死 亡率也逐渐升高。
由表中死亡构成比可知:半数以上的围产儿死亡率集中在体重1000~2500g组和 孕周<38周组。为降低围产儿死亡率,对体重偏低,不足月妊儿及多产次产妇应 加强产前保护。
2.表 5-2为一抽样研究资料
(1)填补空白数据,见下表( )内。
表5-2 某地各年龄组恶性肿瘤死亡情况
年龄 人口数 死亡总数 其中恶性 恶性肿瘤死亡 恶性肿瘤死 年龄别死 (岁) 肿瘤死亡数 占总死亡的(%) 亡率(1/10万) 亡率(%0) (1) (2) (3) (4) (5)=(4)/(3) 6)=(4)/(2) (7) 0~ 82920 (138) 4 2.90 (4.82) (1.644) 20~ (46638) 63 (12) 19.05 25.73 (1.351) 40~ 28161 172 42 (24.42) (149.142) (6.108) 60~ (9371) (342) 32 (9.63) (341.479) (36.496) 合计 167090 715 90 12.59 (53.863) (4.279) (2)根据最后(5)(6)(7)三栏结果作简要分析
由表中第(5)栏可知:40~岁组恶性肿瘤死亡占总死亡比重最高,近1/4;20~岁组次之,占19.5%;60~岁组恶性肿瘤死亡人数最多,但仅占9.36%;0~岁组恶性肿瘤死亡占总死亡比重最底,仅占2.90%由表中第(6)栏可知:恶性肿瘤的年龄别死
25
亡随年龄的增大而增加,以60~岁组为最高,为341.479/10万。故可认为恶性肿瘤对老年人危害最大,应引起足够的重视。由表中第(7)栏可知:年龄别死亡率以40岁以下最低,以后随年龄的增加而增加,60岁以后高达36.496‰。
(3)试估计“0~”岁年龄组恶性肿瘤死亡率和年龄别死亡率的可信区间。 0~岁组恶性肿瘤死亡率的可信区间:死亡数为4,查poisson分布u的可信区间,可信区间为1.0~10.2。所以恶性肿瘤死亡率的95%可信区间为: (1.0/82920~10.2/82920)=(1.206~12.301)/10万 0~岁组年龄别死亡率的可信区间,按式:
??1.96?(1??)/n?(0.001664?1.960.001664 (1?0.001664)/82920)?(1.387~1.941)%o
(4)试比较“20~”与“40~”岁组恶性肿瘤死亡率有无差别。 Ho:20~与40~岁组恶性肿瘤死亡率相等,即π1=π2
H1:20~与40~岁组恶性肿瘤死亡率不相等,即π1≠π2 α=0.05
本例:n1=28161 x1=42 n1-x1=28119
n2=46638 x2=12 n2-x2=46626 合计: 74799 54 74745
X2=37.07
查X2界值表,得P<0.005在α=0.05的水准上,拒绝Ho,接受H1,故可认为20~岁组与40~岁组恶性肿瘤死亡率有差别。
3.试就表5-3资料分析比较甲乙两医院乳腺癌病人手术后的五年生存率。
表5-3 甲乙两医院乳腺癌病人手术后五年生存率 标化(甲+乙医院合计为标准) 腋下淋巴 标准病 甲医院 乙医院
结转移 例数 原生存率(%) 预期生存人数 原生存率(%) 预期生存人数 Ni Pi NiPi Pi NiPi (1) (2) (3) (4)=(2)(3) (5) (6)=(2)(5) 无 345 77.77 268.31 71.67 247.26 有 793 63.38 502.60 50.60 401.26 合计 1138(∑Ni) 64.24 770.91(∑NiPi) 67.10 648.52 甲医院乳腺癌手术后五年标化生存率?'??Ni?i770.91×100%=×100%=67.74% N1138 26
乙医院乳腺癌手术后五年标化生存率?'??Ni?i648.52×100%=×100%=56.99% N1138因为甲乙两医院有无腋下淋巴结转移的病型构成不同,故标化后,甲医院乳腺癌
手术后五年生存率高于乙医院,校正了标化前甲医院低于乙医院的情况。 2. 为了解某乡钩虫感染情况,随机抽查男200人,感染40人,女150人,感染20 人。 (1)该乡男性感染率是否高于女性?
Ho:男女性的钩虫感染率相同,即π男=π女
H1:男性的钩虫感染率高于女性,即π男>π女 单侧α=0.05
P1=40/200=0.2 P2=20/150=0.1333 PC=(X1+X2)/(n1+n 2)=60/350=0.1714 u =
P1?P2PC(1?PC)(1/n1?1/n2)0.2?0.1333
=
(0.1714(1?0.1714)(1/200?1/150)?1.6385
查t界值表,υ=∞,得单侧0.10>P>0.05,按α=0.05水准,不拒绝Ho,尚不 能认为该乡男性钩虫感染率高于女性。
(2)若对该乡居民作驱钩虫治疗,需要按多少人准备药物(全乡人口男7253人,女 7109人)?
计算该乡钩虫感染率的95%可信区间:
p?1.96s?0.1714?1.960.1714(1?0.1714)/350
cpc
=(13.19~21.09)%
14362×13.19%=1894(人) 14362×21.09%=3029(人)至少需要按1894人, 最多按3029人准备药物。
3. 抽样调查某企业2839名职工高血压病,结果见表.据此,某医生认为:①该企业高血
压发病率为8%,并随年龄递增,其中40岁以上患者占全部病例的90.3%,60岁以上者发病率为100%。②高血压发病与性别有关,男性为10.2%,女性为4.5%,男性明显高于女性(P<0.01)。以上分析是否妥当,试加评述。 表5-4 男、女年龄组高血压病例分布
男性 女 性
年龄组 ———————————————— —————————————— 受检人数 病例数 发病率(%) 受检人数 病例数 发病率(%) 20~ 333 5 1.5 712 4 0.6 30~ 301 4 1.3 142 9 6.3 40~ 517 64 12.4 185 27 14.6 50~ 576 93 16.0 61 9 14.8 60~ 12 12 100.0
27
合计 1739 178 10.2 1100 49 4.5
答:该分析不正确。因为:
(1) 高血压患病率为8%,而不是发病率。原文中60岁以上的发病率是100%,应
为患病率,且由于60岁以上受检人数太少,不宜计算相对数。
(2) 由于男女性受检人数的年龄构成不同,不能直接比较两总患病率,对男女合
计进行假设检验更无意义。由于各年龄组患病率出现明显交叉,如:20~和50~岁组的男性患病率均高于女性,而30~和40~岁组的男性患病率均低于女性。此资料宜直接比较各年龄组的患病率,而不宜使用标准化。
4. 某产院拟分析畸形儿与母亲分娩年龄的关系,检查了新生儿4470例,畸形儿116
例,得以下资料。据此得出结论:“母亲年龄在24~29岁时,畸形儿最多,占总数的92.2%,符合一般规律”。
母亲年龄(岁)21 23 24 25 26 27 28 29 30 31 32 33 合 计 畸形儿例数 1 2 14 19 24 18 19 13 3 1 1 1 116 % 0.86 1.7 12.1 16.4 20.7 15.5 16.4 11.2 2.6 0.86 0.86 0.86 100.00 (1)以上结论是否合理?为什么? 以上结论不合理,不能以比代率。 (2)若要达到作者之目的,应计算什么相对数指标较好?如何计算?
若要达到作者的目的,应计算产妇年龄别畸形儿发生率。 某年龄(组)畸形儿发生率=
7. 某市1971~1981年乙型脑炎发病率如表5-5,试作动态分析 表5-5某市1971~1981年乙型脑炎发病率动态分析
年份 发病率 绝对增长量 发展速度(%) 增长速度(%)
(1/10万) 累计 逐年 定基比 环比 定基比 环比 1971 20.52 — — 100 100 — — 1972 6.31 -14.21 -14.21 30.75 30.75 -69.25 -69.25 1973 1.87 -18.56 -4.44 9.11 29.64 -90.89 -70.36 1974 3.07 -17.45 1.20 14.96 164.17 -85.04 64.17 1975 1.08 -19.44 -1.99 5.26 35.18 -94.74 -64.82 1976 1.38 -19.14 0.30 6.73 127.78 -93.27 27.78 1977 2.29 -18.23 0.91 11.16 165.94 -88.84 65.94 1978 2.31 -18.21 0.02 11.26 100.87 -88.74 0.87 1979 2.47 -18.05 0.16 12.04 106.93 -87.96 6.93
28
某年龄组先天性畸形的胎婴儿数?100%
该年龄组活产?死产?死胎数 1980 2.76 -17.76 0.29 13.45 111.74 -86.55 11.74 1981 2.94 -17.58 0.18 14.33 106.52 -85.67 6.52
本资料从1971年到1974年,发病率呈下降趋势,1975年开始呈上升趋势,
故以1975年为基期计算。
平均发展速度=62.94/1.08?118.2%
平均增长速度=平均发展速度-1=1.182-1=18.2%
动态分析:从绝对增长量看,各年乙型脑炎发病率均低于1971年,10年内
共降低17.58/10万。总的来看发病率呈下降趋势,但降低的速度是不平衡的; 从发展速度和增长速度来看,在最初的1971~1975年是基本下降的,以后又略 有回升现象。在1975年至1981年期间发病率平均发展速度为118.2%,平均增长 速度为18.2%。
8. 从表5-6资料,判断某工厂肺癌发生率是否比一般人群高?
表5-6 某工厂肺癌发生率 分组 某厂 一般人群
人数 肺癌人数 肺癌发生率(1/万) 吸烟 700 5 4.5 不吸烟 300 1 1.5
Ho:μ=μo H1:μ>μo 单侧α=0.05
μo吸烟=n1π1=700×0.00045=0.315 μo不吸烟=n 2π2=300×0.00015=0.045 吸烟者的肺癌发生人数X≥5累计概率:
P=1-[ p(0)+p(1)+ p(2)+ p(3)+ p(4)] P(0)=e-μ=e-0.315=0.7298
P(1)=P(0+1)=P(0)×μ/(0+1)=0.7298×0.315/1=0.2299 P(2)=P(1+1)=P(1)×μ/(1+1)=0.2299×0.315/2=0.0362 P(3)=P(2+1)=P(2)×μ/(2+1)=0.0362×0.315/3=0.0038 P(4)=P(3+1)=P(3)×μ/(3+1)=0.7298×0.315/4=0.000299
P=1-(0.7298+0.2299+0.0362+0.0038+0.000299)=0.000001,按α=0.05水准拒绝Ho,接受H1,故可认为某工厂吸烟的肺癌发生率明显高于一般人群 不吸烟组:Ho:μ=μo H1:μ>μo 单侧α=0.05
不吸烟者的肺癌发生人数X≥1的累计概率: P=1-P(0)
P(0)=e?? =e-0.045=0.956
P=1—0.956=0.044,按α=0.05水准拒绝Ho,接受H1,故可认为某工厂不吸烟的 肺癌发生率高于一般人群。
9. 就表5-7资料如何比较甲乙两厂某工种某病患病率
表5-7 甲,乙两厂某工种某病患病率
29
工龄 甲厂 乙厂
(岁) 工人数 患者 患病率(%) 工人数 患者 患病率(%) <3 400 12 3.00 100 1 1.00 ≥3 100 10 10.00 400 72 18.00 合计 500 22 4.40 500 73 14.60 从表中可以清楚看到≥3的工龄组的患病率乙厂高于甲厂,<3岁组甲厂高于乙厂,
呈现交叉现象。甲厂以患病率低的3年以下工人为主,乙厂则以患病率高的工龄在3年以上的工人为主。这种情况下不能直接比较总患病率,应按不同工龄组进行比较
10. 设某病患者的自然康复率为30%,分别求10个患者中自然康复1人及以下,8人以
上的概率
本例π=0.30,1-π=0.7,n=10。依题意10名患者中: (1)康复1人及以下的概率 P(X≤1)=?P(X)?P(0)?P(1)
01 P(0)=0.710=0.02825 P(1)=
10!?0.7(10?1)?0.3?0.12106
1!(10?1)! P(x≤1)=0.02825+0.12106=0.1493 (2)康复8人及以上的概率。
P(x≥8)=?p(X)?p(8)?p(9)?10(10)
810 P(8)=(X)(1??)n?xx(?)x =
10!?0.7(10?8)?0.38?0.0014467
8!(10?8)!nn?K? ?X?11??10?80.3 P(9)=p(8)???0.0001378
8?11?0.3P(10)=0.310=0.000005905
则P(x≥8)=P(8)+P(9)+P(10)=0.00159 当某病自然康复率为30%时,10名患者中1人及1人以下康复的概率为0.14931,康复8人及8人以上的概率为0.00159
11. 用某型麻疹疫苗接种一批麻疹易感儿,把接种后已阳转者96名作为观察对象,3
年后复查,96名中仍为阳性者为85名,试求该疫苗接种阳转者3年后仍保持阳性的百分率的95%可信区间
因为nP=85,nq=11,均大于5,n=96>50,可按正态近似求该疫苗接种3年仍
保持阳转率的95%可信区间。
P(x+1)=P(X)×
30
??1.96sp?85/96?1.9685/96(1?85/96)/96
=0.8554?0.0637=(82.17~94.91)%
12. 用一种新药治疗某种寄生虫病,受试者50人中在服药后1人发生严重反应,这种
反应在此病患者中也曾有发生,但过去普查结果为每5000人仅有一人出现。问此药是否提高了这种反应生率?
Ho:服药后的反应率与普查时的反应率相等,即受试者每50人服药后平均反应人 数为μo
H1:服药后的反应率高于普查时的反应率,即μ>μo 单侧α=0.05 本例n=50,πo=1/5000=0.0002,μo=nπo=50×0.0002=0.01,样本例数为50时, 抽得样本严重反应人数X≥1的概率:
P=1-P(0) P(0)=e???e0.01?0.99
P=1-0.99=0.01
今P=0.01,按α=0.05,拒绝Ho,接受H1,故可认为此新药能提高了这种反应的
发生率。 13. 同一水样中,每次抽取1ml置培养皿中,共作10个平板培养,共数得菌落146个, 试估计该检样菌落数的95%可信区间。 X=146(个),X>50,用正态近似法求该检样本菌落数的95%的可信区间为: X±uaX?146?1.96146?122.32~169.68(个)
14. 某疫苗预防接种后,进行有关的非传染性疾病流行病学考核,结果如下:接种组
与对照组各调查10万人,接种组发病22人,对照组发病36人。试问两组发病率有无差别?
Ho:两组发病率相同,即μ1=μ2
H1:两组发病率不相同,即μ1≠μ2
α=0.05
本例??1?36人 ??2=22人 u=
??1???2??1???2?36?2222?36?1.8383
查附表2,t界值表,υ=∞,得0.1>P>0.05,在α=0.05的水准上,不拒绝
Ho,尚不能认为两组发病率有差别。
15. 甲乙两市分别用抽样调查了解已婚妇女宫颈癌的患病情况,甲市调查1万人,患者
82例,乙市调查2万人,患者102例。问甲乙两市宫颈癌患病率有无差别? Ho:两市已婚妇女宫颈癌患病率相等,即μ1=μ2 H1:两市已婚妇女宫颈癌患病率不相等,即μ1≠μ2
α=0.05
X1=82/10000=0.0082, X2=102/20000=0.0051
31
u=
X1?X2X1/n1?X2/n2?0.0082?0.00510.0082/10000?0.0051/20000
=2.9899
本题也可以万人为单位,计算更为简单: u=
82?5182?51/2?2.9899
查附表2,t界值表,υ=∞,得0.005>P>0.002,在α=0.05的水准上,拒绝Ho, 接受H1,故可认为两市妇女子宫颈癌患病率的差别有显著性,甲市已婚妇女子宫 颈癌患病率高于乙市。
16. 观察某种防治细菌性痢疾(菌痢)措施的效果,结果如表3-6。问能否据此认为该 措施有效?
表5-8 两组人群菌痢发病率的比较(1979年)
分组 人数 菌痢例数 (无菌痢数) 发病率(‰) 试验组 4118 21 4097 5.1 对照组 5217 72 5145 13.8 合计 9335 93 9242 9.96 Ho:π1=π2
H1:π1≠π2 单侧α=0.05 u=
P1?P2PC(1?PC)(1/n1?1/n2)
=
0.0051?0.01380.00996(1?0.00996)(1/4118?1/5217)??4.204
查附表2,t界值表,υ=∞,得P<0.005,按α=0.05的水准,拒绝Ho,接受H1,故可认为实验组和对照组的菌痢发病率有差别,实验组的发病率低于对照组,即该措施有效。
17. 把某肿瘤新发病例按住址点在一张地图上,又将地图划分成许多面积相等的小方
格,再分别统计发病数0,1,2,……及相应的方格数,对此资料作Possion分布 拟合优度的X2检验,若P<0.05,就可认为此病在人群中的分布不随机,可能有 聚集性。你认为如何?
答:对此资料作Poisson分布拟合优度的X2检验,若P<0.05按α=0.05水准, 拒 绝Ho,接受H1,可认为此资料不服从Poisson分布,也即可以认为此病在人群 中不呈随机分布,再综合考虑环境(地形、地貌)遗传等资料,结合专业知识确 定有无聚集性。 18. 某乡有人口5000人,已知血吸虫粪检阳性率下降至5%左右。血防站准备进行一次
血吸虫感染的普查,拟先将每10人粪便作为一个初筛的混合样本,混合样本血吸 虫卵阴性,则该10人均作阴性;混合样本阳性,再对该混合样本的10人粪便逐 人复查。问此法比一般的逐人粪便检查会减少多大的工作量?
设:k=每组混合样本例数;P=粪检血吸虫卵阳性率;q=阴性率=1-p;
32
N=全部受检人数;N/k=混合样本数,即组数
(1)计算每组平均检验次数。
由二项分布理论可知:
概率 检验次数
混合样本内粪检 q.q.q…q=qk 1 全部为阴性
混合样本内粪检 1-qk k+1 至少有1例阳性
一组平均检验次数=(qk×1)+(1-qk)(k+1)=k-kqk+1 (1)
(2)计算全部检验期望数。
全部检验期望数=(N/k)(k-kqk+1)=N(1-qk+1/k) (2) 本例已知:N=5000,K=10,P=0.05,q=1-p=0.95,代入试(2)
10
全部受检期望数=5000×(1-0.95+1/10)=2506.32
比一般逐人检查减少工作量:5000-2506.32=2493.68,减少工作量的百分比为: 2493.68/5000=49.87%。
19. 某县进行学龄前儿童百日咳、白喉、破伤风制品的接种调查,据已掌握的情况,
将全县各乡分为好、较好、差三类,各随机抽取1/10的学龄前儿童作调查,结果 如表5-9,试估计该县百白破疫苗接种率的95%可信区间。
表5-9 某县三类乡百白破疫苗接种率调查结果 类 别 人 数 抽样人数 接种率
好 7371 723 0.8174 较好 14899 1478 0.6969 差 9308 930 0.3022 合计 30578 3131
本题为求按比例分配的分层抽样中总体率的可信区间,首先计算接种率及其标准误。
(1)p=[ΣΝiΡi]/Ν=1/31578[7371×0.8174+14899×06969+9308×0.3022] =19221.0461/31578=0.608685 (2)sp??Ni2(1?ni/N)[(pi(1?pi)/(ni?1)/N =
227371(1?723/7371)[0.8174?0.1826/(723?1)]???9308(1?930/9308)[0.3022?0.6978/(930?1)}
?? =0.007520
该率不接近于0或1,一般认为服从二项分布。因n=3131,较大,可用
正态近似法计算其可信区间。
95%CI:P±1.96sp =0.608635+1.96×0.007520=(0.5939,0.6234)
20. 为了解某县某病感染率,现从全县125个村民组(共3万人)中随机抽出10个村 民组,对该10个村民组的全部人口进行了调查,结果如下,试据此估计此县农村 居民感染率
村民组 1 2 3 4 5 6 7 8 9 10 合计 人 数 138 156 176 184 194 215 274 329 350 370 2386 感染人数 41 48 56 70 75 86 90 101 109 121 797 本例采用整群抽样作总体率的点估计和区间估计。
33
按正态近似原理计算:已知:K=125,k=10 点估计:p=(K/Nk)(Σαi)
=(125/30000/10)×(797)=0.3321 sp?(K/N)1?k/K)[1/k/(k?1)]??(ai?ai)2
?(125/30000)(1?10/125)[(1/10/10?1][(41?797/10)22???(121?791/10)]
=0.03355
95% 可信区间:P±1.96sp =(0.2663,0.3979) 99% 可信区间:P±2.58sp =(0.2455,0.4187)
2
第六章 χ检验
1. 合理并组
2. 确切概率法(精确X2.0) 3. n≥40 1≤T<5 是非题:
1. √ 2. √ 3. × 4. × 5. × 6. √ 7. √ 单选题: 1. A 2.A 3.B 4.D 5.A 6.E 7.C 8.E 9.A 10.B 11.D 12.D 13.B 14.A 15.E 16.C 17.D 18.C 19.A 20.A 21.E 问答题:
1. X2检验适用于解决那些问题?对资料的设计类型和应用条件有何不同要求? (1)X2检验适用于:① 两个及两个以上的率或构成比的比较;② 计数资料
两因素间的相关关系;③ 频数分布的拟合优度检验。
(2)对资料的设计类型和应用条件。 1)四格表的X2检验:
(A?T)2 基本公式X? T>5且n>40
T2(ad?bc)2n 专用公式 X?
(a?b)(c?d)(a?c)(b?d)2 校正公式X?2(ad?bc?n/2)2n(a?b)(c?d)(a?c)(b?d)
1<T<5且n>40
或 X?2(A?T?0.5)2T 当T<1或n<40时,可使用确切概率计算法直接计算概率,应用时注意区分单、 双侧检验。双侧检验。双侧检验取两侧累积概率,单侧检验只取一侧累积概率。 2)行×列(R×C)表资料的X2检验: 基本公式与四格表基本公式相同。
34
A22
专用公式:X?n(??1) 可使用实际频数计算X。
nRnC2
适用条件① 行×列表不宜有1/5以上的格子的理论频数小于5,或有一格理 论频数小于1。② 当多个样本率(或构成比)比较的X2检验,拒绝检验假设, 只能认为各总体率(或构成比)之间总的有差别,但不能说明彼此间都有差别 或某两者间有差别,若要进一步解决此问题,可用X2分割法。③ 对单向有序列 联表,X2检验只说明各处理组的效应在构成比上有无差别。 3)列联表资料的X2检验:
R×C列联表公式:与R×C(行×列)表相同,但检验假设不同,R×C
列联表用于检验有无关联,而R×C(行×列)表用于多个率或构成比的比较。适用条件与行×列表适用条件①相同。
2×2列联表或配对资料X2检验,检验两个处理有无差别。 X2?(b?c)2b?c b+c>40
(b?c?1)2b?c 或校正公式 X?2 b+c<40
检验两种处理间有无相关,公式同四格表所用公式
(A?T)2 4)频数分布拟合优度的X 公式X?
T2
2 适用条件遇有理论频数小于5时,可与相邻组合并。 2. X2检验的基本思想是什么?
X2检验的基本思想是实际数与理论编数的吻合程度,它是根据检验假设来确定的, 如作两样本率的比较,我们先假设两组的总体率相同,均等于两组合计的总率,如 果检验假设成立,则实际数与理论数之差一般不会很大。出现很大的X2 值的概率是 很小的若P
3、四表格资料在何种情况下需要进行校正?为什么? 在1≤T<5 n≥40时,需要计算校正X2 推断统计量X2时是用一种连续概率分布(X2分布)作为对观测频数概率分布的近似, 为改善此近似F.Yates提出了一个修正,即取平方之前将正偏差(A-T)减0.5,负 偏差加0.5,这样使X2值降低,校正后的概率更接近确切的概率。 4、行X列表X2检验的注意事项有哪些?
(1)X2检验要求理论数不宜太小,否则将导致分析的偏性,一般认为行X列表中不宜 有1/5以上格子的理论频数小于5,或有一个理论数小于1。 对理论数频数大小有三种处理方法: ① 最好增加样本例数以增加理论频数 ② 删去上述理论频数太小的行或列
③ 将太小理论频数所在行或列与性质相近的邻行邻列的实际频数合并。
后两法可能会损失信息,也会损失样本的随机性,不同的合并方式有可能影响推断
35
结论,故不宜作常规方法。
(2)当多个样本率(或构成比)比较的X2检验,结论为拒绝检验假设,只能认为各总 体率(或总体构成比)之间总的来说有差别,但不能说明它们彼此见都有差别,或 某两个间有差别,实际工作中,常常还需要知道各组间比较的情况,若要进一步解 决此问题,不能采用一般四格表的X2检验进行两两比较,因为这会增大犯Ⅰ型错误 的概率,可采用以下方法:
① 改变显著水准后的两两比较法(Brunden法)
前已述及,若将多个样本两两构成四格表,用一般的四格表方法会增大Ⅰ型错误, 那么,一种自然的想法就是能否将显著水准适当降低,从而一方面相当于抵消Ⅰ型 误差的增加,一方面又可采用一般的四格表方法处理?改变显著性水准的方法正是 基于这种思想。Brunden法系将检验水准α调整为α
α’=α/2(K-1) (9.10)
22
式中K为样本数,然后用求得的各四格表的X值与Xα值比较,从而作出推断,也 就是说,若取α=0.05,K=6(则α’=0.005),则不能用X20.05(1)=3.84为界值,而要 用X20.05(1)=7.88为界值。此外,也可用各四X2检验对应的P值与α’比较而得出结 论。
② 改变显著界值的两两比较法:
该法类似于上法,但考虑到了处理组数a,因而更合理,处理组数a是各组按率的 大小排列后,欲比较的两组间包括的组数,表9.1列出了用蒙特卡洛模拟法求出K×2 表分割为非独立的四格表的显著界值。有了此显著界值后,只要用各四格表的X2值 与相应的界值相比即可作出结论。
K×2表分割为非独立的四格表的显著界值
K 处理a
2 3 4 5 6 3 3.10 5.48 5.15 8.48
4 3.00 4.48 6.48 4.78 6.53 9.33
5 3.05 3.99 5.23 7.23 4.40 5.70 7.35 9.88
6 3.03 3.94 4.70 6.15 8.05 4.50 5.40 6.55 8.45 10.00
计算题:
1. 某医师用甲、乙两药治疗某病,结果如下表,问甲、乙两药疗效有无差别?
表6-7 甲、乙两药疗效比较计算表
36
药物 甲 乙 合计
治愈数 29 69 98
未治愈数
11 4 15
合计 40 73 113
Ho:两药疗效相同,即π1=π2 H 1:π1≠π2 α=0.05
Tmin=15×40/113=5.31 且n>40 用公式
(ad?bc)2n X2?=10.88
(a?b)(c?d)(a?c)(b?d)查X2界值表,得P<0.01,按α=0.05的水准拒绝Ho,接受H1,故可认为甲、乙 两药疗效有差别,乙药疗效较好。
2. 某卫生防疫站在中小学观察三种矫治近视眼措施的效果,近期疗效数据如表, 结论
为“近期疗效要以夏天无眼药水最好,保健操为次,新医疗法最差”。试对此作分析评价。
表6-2 三措施的近期有效率比较
矫治方法 有效人数 无效人数 (合计) 有效率(%) 夏天无眼药水 51 84 135 37.78 新医疗法 6 26 32 18.75 眼保健操 5 13 18 27.78 合计 62 123 185 33.51 Ho:三组药物近期有效率相等
H1:三组药物近期有效率不等或不全相等 α=0.05
A251284262262 X?n(??1)?185?(???nRnC62?135135?12332?6232?1232 52132??1)?4.498 +
18?6218?123
v=(2-1)(3-1)=2查X2界值表,得0.25>P>0.1,按α=0.05的水准不拒绝Ho,尚不能认为三种措施的近期有效率有差别。
3. 某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系,资料整理如表。问两者之
间是否存在一定的关系?
表6-3 某厂职工冠心病与眼底动脉硬化普查结果分析
眼底动脉硬化 冠心病诊断结果 合计 正常 可疑 冠心病
37
0 340 11 6 357 Ⅰ 73 13 6 92 Ⅱ+Ⅲ 100 20 19 139 合计 513 44 31 588
注:原表中T4,3=6×31/588=0.3163<1,故将Ⅱ和Ⅲ级合并
(1)解法Ⅰ:本题为双向有序分类变量,可设X为眼底动脉硬化等级,Y为冠心病诊
断结果,X、Y的等级分别为1、2、3。计算Spearman等级相关系数rs=0.2988,P<0.05,眼底动脉硬化程度与冠心病诊断结果存在正相关。 (2)解法Ⅱ:列联表X2检验
Ho:冠心病与眼底动脉硬化级别无关 H1:冠心病与眼底动脉硬化级别有关 α=0.05
A2340211262 X?n(??1)?588?(??nRnC357?513357?44357?312732132621002202192?????-1=58.134
92?51392?4492?31139?513139?44139?31查附表9,X2界值表,得P<0.005,按α=0.05的水准拒绝Ho,接受H1,故可认 为该厂职工冠心病与眼底动脉硬化级别有关。
4.表6-4 用两种方法检查已确诊的乳腺癌患者120名。甲法检出率为60%,乙法检出 率50%,甲乙两法一致的检出率为35%,问:
(1)两种方法何者为优?
表6-4 甲乙两法检验结果
乙法 甲法 合计 + - + 42 18 60 - 30 30 60 合计 72 48 120 Ho:两法分不出优劣,即B=C H1:两法能分出优劣,即B≠C α=0.05
b+c=18+30=48>40
(b?c)2(18?30)2??3.00 X?b?c18?302v=1,查附表9,X2界值表,得0.10>P>0.05,按α=0.05的水准不拒绝Ho,尚
不能认为检出率有差别
(2)两种方法的检出结果是否有关系?
38
Ho:两法的检出结果无关系 H1:两法的检出结果有关系
α=0.05
T1,2min?60?48/120?24 n>40 用公式
(ad?bc)2n X2?
(a?b)(c?d)(a?c)(b?d)(42?30?18?30)2?120?5.00 =
60?60?72?48查X2界值表,得0.05>P>0.01,按α=0.05的水准拒绝Ho,接受H1,故可认为 甲、乙两法检出结果有关。 4. 经反复多次实践证明,用一般疗法治疗某病的治愈率约为20%。现改用新疗法治疗,
并随机抽取400名该病患者进行治疗,那么这400名患者中至少要多少人治愈才能判断比一般疗法效果好?此判断发生错误的概率有多大? Ho:两种疗效法治愈率相同,即??0.2 H 1: ??0.2 单侧α=0.05
本例 n =400 ??0.2
u=
p??0?0(1??0)/n
解之,p??0?u??0(1??0)/n
=0.2+1.645?0.2?(1?0.2)/400=0.2329
?X=Np=400?0.2329=94(人)
400名患者中至少要有94人治愈才能判断新疗法比一般疗法效果好。此判断可能 发生错误的概率为5%
5. 某种化学物质经诱发肿瘤试验,实验组15只白鼠中4只发生癌变,对照组10只白
鼠无一发生癌变(表6-5)。问两组发癌率有无差别? 表6-5 某药物肿瘤治疗试验
发癌数 未发癌数 合计 实验组 4 11 15 对照组 0(1.6) 10 10 合计 4 21 25
Ho:两组发癌率相等,即π1=π2 H1:两组发癌率不等,即π1≠π2 α=0.05
本题n=25<40,故用四格表的确切概率法公式:
(a?b)!(c?d)!(a?c)!(b?d)! P=
a!b!c!d!n! 周边合计保持不变的四格表有(1)~(5):
39
取 ︳A-T ︳大于等于1.6表的概率和,即P=p(1)+p(5)=0.1076+0.0166=0.1242, 按α=0.05水准不拒绝Ho,尚不能认为两组的发癌率有差别。
6. 某医院收治了100例临床确诊的小儿佝偻病患者,入院时均分别作血生化检查与X
光片检查(表6-6)。欲了解此病法何者较敏感,试设计一整理表,并指出宜作何统计处理?
应做配对设计 表6-6 佝偻病患儿入院检查登记表 编号 生化检验 X光片
1
2 . . 100
每个患儿按检查顺序编号,生化指标及X光片阳性记为“+”,阴性记为“-”,根 据表6-6登记结果,整理归纳记入表6-9。
表6-9 生化检查和X线检查结果 生化 X线检查 合计
检查 + - + α b α+b - c d c+d 合计 a+c b+d N
若在考虑了两法一致的a,d以后,仍拟比较两法何者较敏感,应做配对资料的X2检验.
(b?c)2 X? (b+c>40)
(b?c)2 X?2(b?c?1)2(b?c) (b+c<40) v=1
8. 某医生观察某新药对预防流行性感冒(流感)的效果,并作了统计处理(表3-18),你 对此有何意见?
表6-7用药组和对照组流感患病率比较
发病数 未发病数 合计 有效率% 服药组 50 130 180 72.2
未服药组 40 190 230 82.6 合计 90 320 410 78.05 X2=6.63, P<0.05
(1)因旨在观察新药的效果,根据服药组有效率低于对照组(未服药)就不必进行
假设检验。
(2)应对本项实验观察的易感者暴露条件进行分析是否均衡可比。
第七章 秩和检验
答案
填空题
40
1. 非参数统计(秩和检验)
2. 不受总体分布的限定,适应范围广,检验效率低于参数检验 3. P<0.05 4. n>25 是非题:
1. √ 2. √ 3. × 4. √ 单选题: 1.A 2.D 3.C 4.D 5.B 6.B 7.E 8.E 9.A 10.D 11.C 12.B 问答题:
1. 参数检验与非参数检验的区别何在?各有何优缺点? (1)参数检验与非参数检验的区别。
1)参数检验:以已知分布(如正态分布)为假定条件,对总体参数进行估计或检验。 2)非参数检验:不依赖总体分布的具体形式和检验分布(如位置)是否相同。 (2)参数检验与非参数检验的优缺点。
1)参数检验:优点是符合条件时,检验效率高;其缺点是对资料要求严格,如等 级数据、非确定数据(>50mg)不能使用参数检验,而且要求资料的分布型已知和总体方差相等。
2)非参数检验:优点是应用范围广、简便、易掌握;缺点是若对符合参数检验条件的资料用非参数检验,则检验效率低于参数检验。如无效假设是正确的,非参数法与参数法一样好,但如果无效假设是错误的,则非参数检验效果较差,如需检验出同样大小的差异的差异往往需要较多的资料。另一点是非参数检验统计量是近似服从某一部分,检验的界值表也是有近似的(如配对秩和检验)因此其结果有一定近似性。
2.非参数检验适用那些情况? (1)等级顺序资料。
(2)偏态资料。当观察资料呈偏态或极度偏态分布而有未经变量变换,或虽经变量变
换但仍未达到正态或近似正态分布时,宜用非参数检验。 (3)未知分布型资料
(4)要比较的各组资料变异度相差较大,方差不齐,且不能变换达到齐性。
(5)初步分析。有些医学资料由于统计工作量过大,可采用非参数统计方法进行初步
分析,挑选其中有意义者再进一步分析(包括参数统计内容)
(6)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作
出估计,在这种情况下可用非参数统计方法。
3.为什么秩和检验的编秩在不同对比组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次?
因为在不同对比组,不取平均秩次会加大或减小某一组的秩和;而在同一组 内,出现相同数据不编平均秩次,该组秩和不受影响。
4.两样本比较的秩和检验当n1>10,n2-n1>10时采用u检验,这时检验是属于参数 检验还是非参数检验,为什么?
两组比较的秩和检验,当n大时,秩和分布近似正态分布,此时不必要再编制比n更大的T检验界值表,而利用秩和分布随n增大渐近正态分布的性质,进行u检验,故仍属于非参数检。 计算题:
1. 试检验(表7-1)针刺不同穴位的镇痛效果有无差别? (1)假设:Ho:三穴位镇痛效果的分布相同
41
H 1:三穴位镇痛效果的不同或不全相同 α=0.05
(2)计算检验统计量:
表7-1 针刺不同穴位的镇痛效果
镇痛效果 各穴位的观察频数 秩次范围 平均秩次 合谷 足三里 扶突 合计
+ 38 53 47 138 1~138 69.5 ++ 44 29 23 96 139~234 186.3 +++ 12 28 19 59 235~293 264.0 ++++ 24 16 33 73 294~366 360.0
Ri 21935 21764 23462
ni 118 126 122 366 Ri 185.89 172.73 192.31 H=12/[N(N+1)]×?Ri2/ni-3(N+1)
=12/[366(366+1)×[219352/118+217642/126+234622/122]-3(366+1) =2.212
C=1-Σ(ti3-ti)/(N3-N)
=1-[(1383-138)+(963-96)+(953-95)+(733-73)]/(3663-366) =1-0.0838=0.9162 H C=2.212/0.9162=2.414
(3)确定P值和作出推断结论:本题K=3,v=3-1=2,查附表9,X2界值表,得0.05
>P>0.25,按α=0.05水准,未拒绝Ho,尚不能认为三种穴位镇痛效果有差别。
2.某实验分别用两种方法对36件样品测定大肠菌指数,得表4-9资料,作t检验 (t=1.546,P>0.05),认为两法结果一致,你对此有何意见?
表7-2 用两法测定36件水源水样品的结果
大肠菌指数 DY-2法(样品数) 发酵法(样品数) 950 0 1 2300 6 3 9400 3 0 23000 24 5 23800 3 27 合计 36 36 均数 18493.33 21262.5
本实验数据应用t检验,存在下列问题:
(1)本实验属于配对设计,但整理成频数表已拆开原样本的对子,成为两组比较的
形式。
(2)频数分布呈极度偏态分布,不宜使用t检验
42
(3)应使用配对设计差值的符号秩和检验。
3. 表7-3资料是12名宇航员航行前及返航后24小时的心率(次/分),问航行对心率
有无影响?
(1)假设:Ho:差值总体中位数Md=0
H1:差值总体中位数Md≠0 α=0.05
(2)求检验统计量:
表7-3 宇航前后24小时心率(次/分)
宇航员号 航行前 航行后 差值 秩次 (1) (2) (3) (4) (5) 1 76 93 -17 -9 2 71 68 3 1 3 70 65 5 4 4 61 65 -4 -3 5 80 93 -13 -8 6 59 78 -19 -11 7 74 83 -9 -7 8 62 79 -17 -10 9 79 98 -19 12 10 72 78 -6 -5 11 84 90 -6 -6 12 63 60 3 2 T+=7 T-=71 (3)确定P值和作出推断结论:任取T+ =7或T- =71,查附表10,T界值
表,得P<0.01,在α=0.05水准上,拒绝Ho,接受H1,可以认为航行对心率有影响。
4. 配对比较两种方法治疗扁平足效果,记录如表7-4,问那种方法好?
(1)假设:Ho:两法疗效差值中位数Md=0
H1:Md≠0
α=0.05 (2)求检验统计量:
表7-4 甲乙两法治疗扁平足疗效比较
病例号 甲法 乙法 差数 秩次 (1) (2) (3) (4)=(2)-(3) (5) 1 好1 差3 -2 -9 2 好1 好1 0 - 3 好1 差3 -2 -10 4 好1 中2 -1 -4.5
43
5 差3 中2 1 4.5 6 中2 差3 -1 -4.5 7 好1 中2 -1 -4 8 好1 差3 -2 -11 9 中2 中2 0 - 10 差3 差3 0 - 11 好1 中2 0 - 12 差3 差3 0 - 13 好1 中2 -1 -4.5 14 中2 差3 -1 -4.5 15 好1 中2 -1 -4.5 16 中2 差3 -1 -4.5
* 1:好 2:中 3:差 T+=4.5 T-=761.5 (3)确定P值和作出推断结论:本题有5个差值d=0,故n=11,查附表10,
得P<0.01,在α=0.05水准上,拒绝Ho,接受H1,可认为甲法疗效优于乙法。
5.表7-5为测得铅作业与非铅作业工人的血铅值(μmol/L),问两组工人的血铅值有 无差别?
(1)假设:Ho:两组工人血铅值总体分布相同
H1:两组工人血铅值分布不同 α=0.05
(2)求检验统计量:
表7-5 铅作业工人和非铅作业工人血铅值(μmol/L)比较 铅作业组 非铅作业组
血铅值 秩次 血铅值 秩次 0.82 9 0.24 1 0.87 10.5 0.24 2 0.97 12 0.29 3 1.21 14 0.33 4 1.64 15 0.44 5 2.08 16 0.58 6 2.13 17 0.63 7 0.72 8 0.87 10.5
10.1 13
44
n1=7 T1=93.5 n2=10 T2 =59.5 (3)确定P值和作出推断结论,本题较小例数n 1=7两组例数之差n 2-n 1=10-7=3,
查附表11,得P<0.01,在α=0.05水准上拒绝Ho,接受H 1,铅作业组平均秩次为93.5/7=13.36,非铅作业平均秩次为59.5/10=5.95,可以认为铅作业工人的血铅值高于非铅作业工人的血铅值。
6.比较表7-6两组肝炎婴儿的血清总胆红素有无差别?
(1)假设:Ho:两组肝炎婴儿的血清总胆红素总体分布相同
H 1:两组肝炎婴儿的血清总胆红素总体分布不同 α=0.05
(2)求检验统计量:
表7-6 两组肝炎婴儿的血清总胆红素
总胆红素 人数 秩次范围 平均秩次 秩和
μmol/L) 一般组 重症组 合计 一般组 重症组 <17 4 4 1~4 2.5 10 17~ 10 10 5~14 9.5 95
80~ 15 2 17 15~31 23 345 46 160~ 1 9 10 32~41 36.5 36.5 328.5 240~ 2 2 42~43 42.5 85 320~ 4 4 44~47 45.5 182 400~ 2 2 48~49 48.5 97
合计 30 19 49 T2 =486.5 T1=738.5
u=
[T1?n1(N?1)/2?0.5][n1n2(N?1)/12]
=
[738.5?19?(49?1)/2?0.519?(30)?(49?1)/12?5.397
计算u C:
C = 1-Σ((ti3?ti)/(N3?N)
= 1-[(43-4)+(103-10)+(173-17)+(103+10)+(23-2)+(43-4)(23-2)]
3
/(49-49)
= 1-5208/117600=0.9557 uC = 5.379/0.9557=5.520
(3) 确定P值和作出推断结论:查附表2,t界值表,v=∞,得P<0.001,按α
=0.05水准,拒绝Ho,接受H 1,可以认为重症组肝炎婴儿的血清总胆红素高于一般组。
45
7. 试检验表7-7三组人的血浆总皮质醇测定值有无差别?
(1)假设:Ho:三组人的血浆总皮质醇测定值总体分布相同
H 1:三组人的血浆总皮质醇测定值总体分布不同或不全相同 α=0.05
(2)计算检验统计量如下表:
表7-7 三组人的血浆总皮质醇测定值
正常人 单纯性肥胖 皮质醇增多症
测定值 秩次 测定值 秩次 测定值 秩次 0.11 1 0.17 2 2.70 20 0.52 4 0.33 3 2.81 21 0.61 6 0.55 5 2.92 22 0.69 8 0.66 7 3.59 23 0.77 9 0.86 10.5 3.86 25 0.86 10.5 1.13 14 4.08 26 1.02 12 1.38 16 4.30 27 1.08 13 1.63 17 4.30 28 1.27 15 2.04 19 5.96 29 1.92 18 3.75 24 6.62 30 Ri 96.5 117.5 251 Ni 10 10 10
H=12/[N(N+1)]×ΣRi2/n -3(N+1)
=12/[30(30+1)]×(96.52+117.52+2512)/10-3(30+1)=18.122 v=k-1=3-1=2,查附表9,X2界值表,得P<0.005,在α=0.05水准上拒绝Ho,接受H 1,可以认为三组人的血浆总皮质醇测定值分布不同。
(3)多样本两两比较如表4-7
Ho:任两组人的血浆总皮质醇测定值总体分布相同 H 1:任两组人的血浆总皮质醇测定值总体分布不同 α=0.05
两两比较秩和差数的绝对值
各组秩和 D=|RA-RB|
单纯性肥胖117.5 皮质醇增多症251 正常人96.5 21 154.5
46
单纯性肥胖117.5 133.5
本题n=10,k=3,查附表13,D界值表,D 0.05(10,3)=92.3,D 0.01(10,3)=114.7,在α=0.05水准上,皮质醇增多症与正常人、单纯性肥胖组比较,均拒绝Ho,接受H 1,可认为对比组间有差别(P<0.01),而单纯性肥胖与正常人相比,P>0.05,未拒绝Ho,尚不能认为两组间的血浆总皮质醇测定值有差别。
8.在研究某地方病的病因工作中,用病区的粮食做动物实验,今有两组大白鼠,分别 用甲,乙两种饲料配方饲养,观察鼠的心肌坏死面积(小格数)如表7-8,问两组 间的坏死面积有无差别?本资料用t检验和秩和检验何者为好?为什么?
表7-8 甲,乙两组心肌坏死面积(小格数)比较
甲 组 乙 组
面积×频数 秩和 面积×频数 秩和
0.0×10 13×10 0.0×15 13×15 0.2×1 2.75 0.2×3 2.75×3 0.3×1 30.5 0.3×1 30.5 0.4×2 33.5×2 0.4×2 33.5×2 0.6×1 36 0.9×2 37.5×2 1.0×1 39 1.3×1 40 1.6×1 41 1.7×1 42 2.2×1 43 2.8×1 45 2.6×1 44 7.4×1 53 3.3×1 46 13.0×1 55 4.3×1 5.1×1 5.4×1 5.5×1 6.1×1 6.2×1 9.7×1 13.8×1 36.0×1
合计 n2=29 T2 =968 n1=28 T1=685
应用t检验的条件是所分析的数据来自正态分布总体,而且要求相应的两总
体方差相等,故首先列出两组数据的频数分布表。由频数表可见两组数据呈极度偏态,且总体方差不齐(S甲2=50.32,S乙2=7.66,F6.569,P<0.05),故应使用秩和检验。
(1)假设:Ho:两组坏死面积的分布相同 H 1:两组坏死面积的分布不同
47
α=0.05 (2)计算检验统计量: u =
[T1?n1(N?1)/2?0.5n1n2(N?1)/12
=
[685?28(57?1)/2?0.5]28?29?(57?1)/12?2.019
计算较正u c:
C=1-Σ(t3-ti)/(N3-N)
=1-[(253-25)+(43-4)+(23-2)+(43-4)]/(573-57)=0.9151 u C=u/c?2.019/0.9151?2.111
(3)确定P值和作出推断结论:查附表2,t界值表, v=∞,得0.05>P>0.01,
在α=0.05水准上拒绝Ho,接受H 1,故可以认为甲乙两组饲料配方饲养大鼠, 心肌坏死面积不同,甲组坏死面积较大。
第八章 直线相关与回归
答案
填空题
?=α+bx 1、Y2、依存关系,相互关系与密切程度 3、直线回归、截距、回归系数 4、-1——1
5、r与b假设检验是等价的
6、相关关系的密切程度和相关方向指标。
?)2 ?-Y)2、剩余平方和Σ(Y-Y7、回归平方和?(Y8、截距,回归系数,斜率
9、相互关系的密切程度,相关方向 是非题:
1. √ 2. × 3. √ 4. √ 5. × 6. × 7. × 8. √ 9. × 10. √ 单选题: 1.D 2.C 3.D 4.D 5.C 6.D 7.B 8.D 9.E 10.B 11.E 12.D 13.E 14.A 15.B 16.A 17.B 18.C 19.C 20.E 问答题:
1. 应用直线回归和相关分析时应注意那些问题?
(1)作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。
(2)在进行回归和相关分析之前,应绘制散点图。当观察点的分布有直线趋势时,才适宜作回归、相关分析。如散点图呈明显曲线趋势,应使之直线化再行分析。散点图
48
还能提示资料有无可疑异常点。
(3)直线回归方程的实用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。
(4)双变量的小样本经t检验只能推断总体两变量间有无直线关系,而不能推断相关的紧密程度,样本含量必须很大。
(5)相关关系不一定是因果关系,也可能是伴随关系,有相关关系不能证明事物间确有内在联系。
2. 用什么方法考察回归直线图示是否正确? (1)直线必须通过点(X,Y)。
(2)若纵横坐标无折断号时,将直线左端延长与纵轴相交,交点的纵坐标必等于截距
α。
(3) 直线是否在自变量X的实测范围内。
3. r与rs的应用条件有何不同?
积差相关系数r用于描述双变量正态分布资料的相关关系。 等级相关系数rs适用于下列资料:
(1)不服从双变量正态分布而不宜作积差相关分析的资料。 (2)总体分布型未知的资料:
(3)原始数据是用等级表示的资料。
4. 某资料n=100,X与Y的相关系数为r=0.2,可否认为X与Y有较密切的相关关系?
N=100,r=0.2时,对相关系数进行t检验,按检验水准α=0.05,拒绝Ho(ρ=0), 接受H 1 (ρ≠0),认为两变量有相关关系,但决定系数r2=0.22=0.04,表示回归 平方和在总平方和中仅占4%,说明两变量间的相关关系实际意义不大。 5. 相关系数与回归系数的区别与联系?
(1)区别:
① 资料要求上:回归要求因变量Y服从正态分布,X是可以精确测量和严
密控制的变量,称Ⅰ型回归;相关要求两个变量X、Y服从双变量正态分布,这种资料若进行回归分析称为Ⅱ型回归
② 应用上:说明两变量间依存变化数量关系用回归,说明变量间的相关关
系用相关。
③ 意义上:b表示X每增(减)一个单位,Y平均改变b个单位,r说明具
有直线关系的两个变量间相关关系的密切程度与相关方向。 ④ 计算上:b=lXY/lXX,r=lXY/lXYlYY
⑤ 取值范围:-∞<b<+∞;-1≤r≤1。 ⑥ 单位:b有单位,r没单位。
(2)联系:
① 对一组数据若同时计算b和r,它们的正负号一致 ② b和r的假设检验是等价的,即对同一样本,t b=t r。
③ 用回归解释相关,决定系数r2=lX Y2/lX XlY Y=SS回/SS总,回归平方和越
接近总平方和,则r2越接近1,说明引入相关的效果越好。
计算题
1. 10名20岁男青年身高(cm)与前臂长(cm)如下,问两者有无相关关系?
49
身 高 170 173 160 155 173 188 178 183 180 165 前臂长 45 42 44 41 47 50 47 46 49 43
(1)计算相关系数:由原始数据及散点图的初步分析,估计本资料有直线趋势。
ΣΧ=1725, ΣΧ2=298525, X=172.5
ΣУ=454 ΣУ2=20690, Y=45.4 ΣΧУ=78541 lXX=ΣΧ2-(ΣΧ)2/n=298525-17252/10=962.5 lYY=ΣΧ2-(ΣΧ)2/n=20690-4542/10=78.4 lXY=ΣΧУ-(ΣΧ)(ΣУ)/n=78541-1725×454/10=226
r?lXYlXXlYY?226962.5?78.4?0.8227
(2)与ρ=0进行假设检验。
Ho:ρ=0,即身高与前臂长间无直线相关关系 H 1:ρ=0,即身高与前臂长间有直线相关关系 α=0.05
t?r?o?srr(1?r)/(n?2)2?0.8227?10?21?0.82272?4.09
υ=n-2=10-2=8
查t界值表,得0.002<P<0.005,按α=0.05水准拒绝Ho,
2. 某省卫生防疫站对8个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘行检 测,结果见表,试检验两者有无相关?
表8-1 8个城市肺癌标化死亡率与大气中苯并(a)芘的相关分析 肺癌标化死亡率(1/10万)
__________________________________________________________________________ 城市编号 X 等级 Y 等级 d d2 (1) (2) (3) (4) (5) (6)=(3)-(5) (7) 1 5.60 1 0.05 1 0 0 2 18.50 8 1.17 7 1 1 3 16.23 6 1.05 6 0 0 4 11.40 3 0.10 2 1 1 5 13.80 5 0.75 5 0 0 6 8.13 2 0.50 3 -1 1 7 18.00 7 0.65 4 3 9 8 12.10 4 1.20 8 4 16
∑d2=28
本题资料不服从双变量正态分布,宜计算等级相关系数。
Ho:ρS=0,即肺癌标化死亡率与大气中苯并(α)芘无相关关系 H 1:ρS≠0,即肺癌标化死亡率与大气中苯并(α)芘有相关关系 α=0.05
由上计算表,rS=1-6Σd2/[n(n2-1)]=1-6×28/[8×(82-1)]=0.6667查附表15, rS界值表,得0.10>P>0.05,按α=0.05水准不拒绝Ho,尚不能认为肺癌标化死 亡率与大气中苯并(α)芘间有相关关系。 3. 就表8-2(1)(2)(4)栏资料分析血小板和出血症的关系。
50