习题答案
第一章
一、是非题
1. 家庭中子女数是离散型的定量变量。 答:对。
2. 同质个体之间的变异称为个体变异。 答:对。
3. 学校对某个课程进行 1 次考试,可以理解为对学生掌握该课程知识的一次随机抽样。 答:对。
4. 某医生用某个新药治疗了 100 名牛皮癣患者,其中55 个人有效,则该药的有效率为 55%。
答:错。只能说该样本有效率为55%或称用此药总体有效率的样本估计值为55%。
5.已知在某个人群中,糖尿病的患病率为8%,则可以认为在该人群中,随机抽一个对象, 其患糖尿病的概率为8%。
答:对,人群的患病率称为总体患病率。在该人群中随机抽取一个对象,每个对象均有相 同的机会被抽中,抽到是糖尿病患者的概率为8%。 二、选择题
1. 下列属于连续型变量的是 A 。 A 血压 B 职业 C 性别 D 民族
2. 某高校欲了解大学新生心理健康状况,随机选取了1000 例大学新生调查,这1000 例大 学生新生调查问卷是 A 。
A 一份随机样本 B 研究总体 C 目标总体 D 个体
3. 某研究用 X 表示儿童在一年中患感冒的次数,共收集了1000 人,请问:儿童在一年中 患感冒次数的资料属于 C 。
A 连续型资料 B 有序分类资料 C 不具有分类的离散型资料 D 以上均不对 4. 下列描述中,不正确的是 D 。 A 总体中的个体具有同质性 B 总体中的个体大同小异
C 总体中的个体在同质的基础上有变异
D 如果个体间有变异那它们肯定不是来自同一总体
5.用某个降糖药物对糖尿病患者进行治疗,根据某个大规模随机抽样调查的研究结果得 到该药的降糖有效率为85%的结论,请问降糖有效率是指 D 。
A 每治疗100 个糖尿病患者,正好有85 个人降糖有效,15 个人降糖无效 B 每个接受该药物治疗的糖尿病患者,降糖有效的机会为85% C 接受该药物治疗的糖尿病人群中,降糖有效的比例为85%
D 根据该研究的入选标准所规定的糖尿病患者人群中,估计该药降糖有效的比例为 85%
三、简答题
1. 某医生收治 200 名患者,随机分成2 组,每组100 人。一组用A 药,另一组用B 药。 经过2 个月的治疗,A 药组治愈了90 人,B 组治愈了85 名患者,请根据现有结果评议 下列说法是否正确,为什么? a)A 药组的疗效高于B 药组。
b)A 药的疗效高于B 药。
答:a)正确,因为就两组样本而言,的确A 组疗效高于B 组。
b) 不正确,因为样本的结果存在抽样误差,因此有可能人群的A 药疗效高于B 药,也 可能人群的两药的疗效相同甚至人群B 药的疗效高于A 药,
2. 某校同一年级的 A 班和B 班用同一试卷进行一次数学测验。经过盲态改卷后,公布成 绩:A 班的平均成绩为80 分,B 班的平均成绩为81 分,请评议下列说法是否正确,为 什么?
a)可以称A 班的这次考试的平均成绩低于B 班,不存在抽样误差。 b)可以称A 班的数学平均水平低于B 班。
答:a) 正确,因为此处将A 班和B 班作为研究总体,故不存在抽样误差。
b)不正确,因为这一次数学平均成绩只是两班数学成绩总体中的两个样本,样本的差异 可能仅仅由抽样误差造成。
3. 在某个治疗儿童哮喘的激素喷雾剂新药的临床试验中,研究者收集了300 名哮喘儿童患 者,随机分为试验组和对照组,试验组在哮喘缓解期内采用激素喷雾剂,在哮喘发作期 内采用激素喷雾剂+扩展气管药;对照组在哮喘缓解期不使用任何药物,在哮喘发作期 内采用扩展气管药物。通过治疗3 个月,以肺功能检查中的第1 秒用力呼吸率
(FEV1/FRC1)作为主要有效性评价指标,评价两种治疗方案的有效性和安全性。请阐 述这个研究中的总体和总体均数是什么?
答:试验组的研究总体是接受试验组治疗方案的全体哮喘儿童患者在治疗3 个月时的 FEV1/FRC1 值的全体。对照组的研究总体是接受对照组治疗方案的全体哮喘儿童患者 在治疗3 个月时的FEV1/FRC1 值的全体。
试验组对应的总体均数是接受试验组治疗方案的全体哮喘儿童患者在治疗3 个月时的 FEV1/FRC1 的平均值;对照组对应的总体均数是接受对照组治疗方案的全体哮喘儿童 患者在治疗3 个月时的FEV1/FRC1 的平均值。
4. 请简述什么是小概率事件?对于一次随机抽样,能否认为小概率事件是不可能发生的? 答:在统计学中,如果随机事件发生的概率小于或等于0.05,则通常可以认为是一个小 概率事件,表示该事件在大多数情况下不会发生,并且一般可以认为小概率事件在一次随机 抽样中不会发生,这就是小概率事件原理。小概率事件原理是统计学检验的基础。 5. 变量的类型有哪几种?请举例说明,各有什么特点?
答:(1) 连续型变量,可以一个区间中任意取值的变量,即在忽略测量精度的情况下, 连续型变量在理论上可以取到区间中的任意一个值,并且通常含有测量单位。观察连续型变 量所得到的数据资料称为计量资料(measurement data)。如例1-1 中的身高变量就是连续型变 量,身高资料为计量资料。.(2) 离散型变量, 变量的取值范围是有限个值或者为一个数 列。离散型变量的取值情况可以分为具有分类性质的资料和不具有分类性质的资料,表示分 类情况的离散型变量亦称分类变量(categorical variable)。观察分类变量所得到的资料称为分 类资料(categorical data)。分类资料可以分为二分类资料和多分类资料,而多分类资料又分成 无序分类资料和有序分类资料,二分类资料如症状指标分为感染或未感染,无序多分类资料 (nominal data) 如血型可以分为A、B、AB 和O 型,有序多分类资料(ordinal data) 如病情指 标分为无症状、轻度、中度和重度。
第二章
一、是非题
1.不论数据呈何种分布,都可以用算术均数和中位数表示其平均水平。
答:错。只有资料满足正态或近似正态分布时计算算术均数是比较有统计学意义的。
2.在一组变量值中少数几个变量值比大多数变量值大几百倍,一般不宜用算术均数表示其 平均水平。
答:对,可以采用中位数表示。
3.只要单位相同,用s 和用CV 来表示两组资料的离散程度,结论是完全一样的。
答:错,标准差S 是绝对误差的一种度量,变异系数CV 是相对误差的一种度量,对于两组 资料离散程度的比较,即使两组资料的度量单位相同,也完全有可能出现两个指标的结论是 不同的。在实际应用时,选择离散程度的指标时,考虑其结果是否有研究背景意义。例如: 一组资料为成人的身高观察值,另一组资料为2 岁幼儿的身高观察值,虽然可以用标准差S 比较两组的离散程度,也不能认为这是错误的,但根本没有研究背景意义,相反选择变异系 数CV 比较两组资料的相对变异程度,这就有一定的研究背景意义。 4.描述200 人血压的分布,应绘制频数图。 答:对。
5. 算术均数与中位数均不容易受极值的影响。 答:错。算术均数比中位数容易受到极值的影响。 二、选择题
1.中位数是表示变量值 A 的指标。 A. 平均水平 B. 变化范围 C. 频数分布
D. 相互间差别大小
2.对于最小组段无确定下限值和(或)最大组段无确定上限值的频数分布表资料,宜用下 列哪些指标进行统计描述? C ____
A 中位数,极差 B 中位数,四分位数间距 C 中位数,四分位数范围 D 中位数,标准差
3.描述年龄(分8 组)与疗效(有效率)的关系,应绘制 A 。 A.线图 B. 圆图 C. 直方图 D. 百分条图
4、为了描述资料分布概况,绘制直方图时,直方图的纵轴可以为 D 。 A 频数 B 频率 C 频率密度(频率/组距) D 都可以 三、简答与分析题
1. 100 名健康成年女子血清总蛋白含量(g/L)如表2-14,试描述之。 表2-12 100 名成年健康女子血清总蛋白含量(g/L) 73.5 74.3 78.8 78.0 70.4 80.5 84.3 68.8 69.7 71.2 72.0 79.5 75.6 78.8 72.0 72.0 72.7 75.0 74.3 71.2 68.0 75.0 75.0 74.3 75.8 65.0 67.3 78.8 71.2 69.7 73.5 73.5 75.8 64.3 75.8 80.3 81.6 72.0 74.3 73.5 68.0 75.8 72.0 76.5 70.4 71.2 67.3 68.8 75.0 70.4 74.3 70.4 79.5 74.3 76.5 77.6 81.2 76.5 72.0 75.0 72.7 73.5 76.5 74.7 65.0 76.5 69.7 73.5 75.4 72.7 72.7 67.2 73.5 70.4 77.2 68.8 74.3 72.7 67.3 67.3 74.3 75.8 79.5 72.7 73.5 73.5 72.0 75.0 81.6 74.3 70.4 73.5 73.5 76.5 72.7 77.2 80.5 70.4 75.0 76.5 答:制作频数表如下:
_____________________________________________________________________
组段 频数 百分比 累积频数 累积百分比
____________________________________________________________________
64~ 3 3.00 3 3.00 66~ 5 5.00 8 8.00 68~ 8 8.00 16 16.00 70~ 11 11.00 27 27.00 72~ 25 25.00 52 52.00 74~ 24 24.00 76 76.00 76~ 10 10.00 86 86.00 78~ 7 7.00 93 93.00 80~ 6 6.00 99 99.00 84~ 1 1.00 100 100.00
变量 例数 均数 标准差 最小值最大值中位数25 百分位数75 百分位数 x 100 73.7 3.925 64.3 84.3 73.5 71.2 75.8
2.某医师测得300 名正常人尿汞值(ng/L)如表2-15,试描述资料。 表2-13 300 名正常人尿汞值(ng/L)
尿 汞 例 数 累计例数 累计百分数(%) 0~ 49 49 16.3 4~ 27 76 25.3 8~ 58 134 44.7 12~ 50 184 61.3 16~ 45 229 76.3 20~ 22 251 83.7 24~ 16 267 89.0 28~ 10 277 92.3 32~ 7 284 94.7 36~ 5 289 96.3 40~ 5 294 98.0 44~ 0 294 98.0 48~ 3 297 99.0 52~ 0 297 99.0 56~ 2 299 99.7 60~ 1 300 100.0 合计 300 — —
答:根据资料给出统计描述的指标如下: 例数 均数 标准差 最小值 最大值 16 15.053 49.014 2 62
3.对于同一的非负样本资料,其算数均数一定大于等于几何均数。 答:根据初等数学中的不等式1 2
1 2 n n n
a a a a a a n
+ + +
", ≥ ", ,可以得到算数均数一定大于
等于几何均数。
4.常用的描述集中趋势的指标有哪些,并简述其适用条件。
答:(1)算术均数:适用对称分布,特别是正态或近似正态分布的数值变量资料。
(2)几何均数:适用于频数分布呈正偏态的资料,或者经对数变换后服从正态分布(对数 正态分布)的资料,以及等比数列资料。
(3)中位数:适用各种类型的资料,尤其以下情况:
A 资料分布呈明显偏态;B 资料一端或两端存在不确定数值(开口资 料或无界资料);C 资料分布不明。
第三章
一、 是非题
1. 二项分布越接近 Poisson 分布时,也越接近正态分布。
答:错。当二项分布的π 不太接近 0或者 1,随着n的增大,nπ 和n(1?π )均较大时, 二项分布的X 的逐渐近似正态分布; n 较大,π 较小,二项分布的X 近似总体均数为
μ = nπ 的 Poisson 分布,只有n较大、π 较小并且nπ 较大时,二项分布的 X 既近
似
Poisson 分布又近似正态分布,其本质是当n 较大、π 较小时二项分布的X 所近似的 Poisson 分布在其总体均数μ = nπ 较大时逼近正态分布。
2. 从同一新生儿总体(无限总体)中随机抽样 200 人,其中新生儿窒息人数服从二项 分布。
答:对。因为可以假定每个新生发生窒息的概率π 是相同的并且相互独立,对于随机抽 取 200 人,新生儿窒息人数 X 服从二项分布B(n,π )。
3. 在 n 趋向无穷大、总体比例π趋向于0,且nπ 保持常数时的二项分布的极限分布是 Poisson 分布。
答:对。这是二项分布的性质。
4. 某一放射物体,以一分钟为单位的放射性计数为 50,40,30,30,10,如果以5 分 钟为时间单位,其标准差为 160 5 。
答:错。设i X 服从总体均数为μ 的 Poisson 分布,i = 1,2,3,4,5,并且相互独立。根据 Poisson 分布的可加性, 1 2 3 4 5 X + X + X + X + X 服从总体均数为5μ ,___________
其总体方差为
5μ ,本题 5 分钟的总体方差5μ 的估计值为50 + 40 + 30 + 30 +10 = 160,所以其
标准
差为160 。
5. 一个放射性物体一分钟脉冲数为 20 次,另一个放射性物体一分钟脉冲数为50 次。 假定两种放射性物体的脉冲性质相同,并且两种放射性物体发生脉冲是相互独立的, 则这两种物体混合后,其一分钟脉冲数的总体均数估计值为70 次。
答:对。根据Poisson 分布的可加性,这两种物体混合后的发生的脉冲数为1 2 X + X ,混 合后一分钟脉冲数的总体均数估计值为20+50=70 次。
6. 一个放射性物体平均每分钟脉冲数为 5 次(可以认为服从Poisson 分布),用X 表示 连续观察20 分钟的脉冲数,则X 也服从Poisson 分布。 答:对,这是Poisson 分布的可加性。
7. 一个放射性物体平均每分钟脉冲数为 5 次(可以认为服从Poisson 分布),用X 表示 连续观察20 分钟的脉冲数,则X 的总体均数和总体方差均为100 次。 答:对。Poisson 分布的可加性原理。
8. 用 X 表示某个放射性物体的每分钟脉冲数,其平均每分钟脉冲数为5 次(可以认为 服从Poisson 分布),用Y 表示连续观察20 分钟的脉冲数,则可以认为Y 近似服从正 态分布,但不能认为X 近似服从正态分布。
答:对。因为Y 的总体均数为100,当μ比较小的时候,Poisson 分布是一个偏态的分布, 但是当μ增大时,Poisson 分布会逐渐趋于对称。 二、 选择题
1. 理论上,二项分布是一种 B。 A 连续性分布 B 离散分布 C 均匀分布 D 标准正态分布
2. 在样本例数不变的情况下,下列何种情况时,二项分布越接近对称分布。 C A 总体率π越大 B 样本率P 越大 C 总体率π越接近0.5 D 总体率π越小
3. 医学上认为人的尿氟浓度以偏高为不正常,若正常人的尿氟浓度X 呈对数正态分 布,Y = lgX , G 为X 的几何均数,尿氟浓度的95%参考值范围的界值计算公式是 A 。 A lg 1( 1.64 ) Y ? Y + S B + 1.96 X G S C + 1.64 X G S D lg 1( 1.96 ) Y ? Y + S
4. 设1 2 10 X , X ,",, X 均 服 从 B(4,0.01) , 并 且 1 2 10 X , X ,",, X 相 互 独 立 。 令 1 2 10 Y = X + X +",+ X ,则 D
A Y 近似服从二项分布 B Y 近似服从Poisson 分布 C Y 近似服从正态分布 D Y ~ B(40,0.01)
5. 设1 2 10 X , X ,",, X 均服从 Poisson(2.2) ,并且 1 2 10 X , X ,",, X 相互独立。令 1 2 10 Y = (X + X +",+ X ) /10,则 C
A Y 近似服从B(10,0.22) B Y 服从Poisson(22)分布 C Y 近似服从正态分布 D Y 服从Poisson(2.2)分布 三、 简答题
1. 如果X 的总体均数为μ,总体标准差为?,令Y =a+bX,则可以证明:Y 的总体均 数为a+bμ,标准差为b?。如果X 服从μ=40 的Poisson 分布,请问:Y = X /2 的总体 均数和标准差是多少?
答:总体均数=20,总体标准差= 40 / 2。
2. 设X 服从μ=40 的Poisson 分布,请问:Y = X /2 是否服从Poisson 分布?为什么? 答:不是的。因为Y = X /2 的总体均数=20,不等于总体方差10。
3. 设X 服从μ=40 的Poisson 分布,可以认为X 近似服从正态分布。令Y = X /10,
试问:是否可以认为Y 也近似服从正态分布?
答:正态分布的随机变量乘以一个非0 常数仍服从正态分布,所以可以认为Y 也近似 服从正态分布。
4. 设X 服从均数为μ的 Poisson 分布。请利用两个概率之比:P(X +1) / P(X ),证明: 当x < μ ?1 时,概率P(X )随着X 增大而增加;当 X > μ 时,概率P(X )随着X 增大 而减小。 答:
1
( 1)/( ) ( )/[ ] /( 1) ( 1)! !
x x
P X x P X x e e x x x
μ μ μ μ μ
+
= + = = ? ? = + +
, 显然, 当
x < μ ?1 时,对应x +1 < μ ,由此得到 1 x 1
μ > +
,所以P(X = x +1) / P(X = x) > 1,
说 明 概 率 P(X ) 随 着 X 增 大 而 增 加 ; 当 X > μ 时 , 则
( 1)/( ) 1 1
P X x P X x x x
μ μ = + = = < < +
,说明当X>μ时,概率P(X )随着X 增大而减 小。
5. 已知某饮用水的合格标准是每升水的大肠杆菌数≤2 个,如果随机抽取1 升饮用水, 检测出大肠杆菌数的95%参考值范围是多少?(提示考虑合格标准的总体均数最大值
为2 个/L,求95%参考值范围)。
答:由于合格标准的总体均数最大值为2 个/L,对于正常而言,大肠杆菌数越少越好, 所以这是单侧参考值范围。即求满足累计概率的不等式2
0 0
( | 2) 2 0.95 !
X X k k k
P k e k
μ ?
= =
Σ = =Σ ≤
的最大X 的解。 X 0 1 2 3 4 5 6
P(X ) 0.135335 0.270671 0.270671 0.180447 0.090224 0.036089 0.01203
0
( )
X k
P k
=
Σ
0.135335 0.406006 0.676676 0.857123 0.947347 0.983436 0.995466 根据上述计算得到 X 的95%参考值范围是 X < 5个/L。?
第四章
一、是非题
1、设 X 的总体均数为μ,则样本均数X 的总体均数也为μ。 答:对。经随机抽样得到的样本均数X 的总体均数也为μ。 2、设 X 的总体方差为?2,则样本均数X 的总体方差也为?2。 答:错。经随机抽样后得到的样本均数X 的总体方差为?2/n。 3、设 随 机 变 量1, , n X … X 均服从 B(1,π ) ,n 很大时,则
1
1 n
i i
X X n =
= Σ 近似服从
N(π ,π (1?π ) / n)
答:对。
4、某研究者做了一个儿童血铅浓度的流行病学调查,共调查了 1000 人,检测了每个人血 铅浓度。虽然血铅检浓度一般呈非正态分布,但由于该研究样本量很大,可以认为这些 血铅浓度近似服从正态分布。
答:错。血铅浓度的分布与样本量是否很大无关,如果样本量充分大时,血铅浓度的样本均 数的分布近似正态分布。
5、某研究者做了一个儿童血铅浓度的流行病学调查,共调查了 1000 人,检测了每个人血 铅浓度,计算这1000 人的血铅平均浓度。对于现有的1000 人的血铅浓度资料,可以认 为该资料的样本均数近似服从正态分布。
答: 错。样本均数的概率分布是指随机抽样前将要随机抽取的样本,其样本均数近似服从 某个概率分布,样本量很大时,样本均数逼近正态分布。对于这个资料而言,这是已经完成 随机抽样的资料,这个资料的样本均数只是一个数,不存在服从哪种分布的问题。
6、某研究者做了一个儿童血铅浓度的流行病学调查,已知血铅测量值非正态分布,计划调 查1000 人,并将计算1000 人的血铅浓度的样本均数,由于该研究样本量很大,可以认 为随机抽样所获得血铅浓度的样本均数将近似服从正态分布。
答:对。如果从某个均数为μ,标准差为?的非正态分布的总体中抽样,只要样本量足够大,
则样本均数 X 的分布也将近似于正态分布N(μ,? 2 / n)。
二、选择题
1、以下方法中唯一可行的减小抽样误差的方法是___B____。 A、减少个体变异 B、增加样本量
C、设立对照 D、严格贯彻随机抽样的原则
2、X S 表示____C____。
A、总体均数的离散程度 B、总体标准差的离散程度 C、样本均数的离散程度 D、样本标准差的离散程度
3、设连续性随机变量X的总体均数为μ,从X总体中反复随机抽样,随样本量n 增大,
X
X S ?μ
将趋于____D____。
A、X 的原始分布 B、正态分布
C、均数的抽样分布 D、标准正态分布
4、在均数为 μ,标准差为 σ 的正态总体中随机抽样,理论上| X ?μ |≥ ____B____的可能性 为5%。
A、 1.96? B 1.96 X ? C、 0.05/ 2,v t S D 1.96 X S
5、下面关于标准误的四种说法中,哪一种是不正确____C____。
A、标准误是样本统计量的标准差 B、标准误反映了样本统计量的变异 C、标准误反映了总体参数的变异 D、标准误反映了抽样误差的大小
6、变量 X 偏离正态分布,只要样本量足够大,样本均数___C_____。 A、偏离正态分布 B、服从F 分布 C、近似正态分布 D、服从t 分布 三、简答题
1、样本均数的抽样误差定义是什么? 答:样本均数的抽样误差是指样本均数和总体均数间的差异,但同时可以表现为从同一总体 中多次随机抽样所得的样本均数间的差异,通常用样本均数的标准误度量平均的抽样误差大 小。
2、估计样本均数的平均抽样误差的统计量是什么? 答:是样本均数的标准差,即样本均数的标准误。 3、简述样本均数的抽样误差的规律?。 答:样本均数的标准误的理论值为x n
?
? = ,而其估计值为X S S n = ;
4、简述 t 分布、F 分布,χ2 分布曲线的特征与自由度的关系。
答:t 分布是一簇以0 为中心,左右对称的单峰曲线,随着自由度的增加,t 分布曲线将越 来越接近于标准正态分布曲线,当自由度为无穷大时,t 分布就是标准正态分布。t 分布的 曲线下两侧尾部的面积可以通过查对应自由度下的t 分布界值表得到。
χ2 分布的图形为一簇单峰正偏态分布曲线,且随着自由度的增加,正偏的程度越来越小。 χ2 分布的曲线下右侧尾部的面积可通过查χ2 界值表得到。
F 分布的特征有:(1)F 分布有两个自由度,F 的取值范围为0~∞。(2)F 分布为一 簇单峰正偏态分布曲线,与两个自由度有关。(3)每一对自由度下的F 分布曲线下面积, 见方差分析用F 界值表(附表4),横标目为第一自由度,纵标目为第二自由度,表中分别给 出了概率为0.05 和0.01 时的F 界值,记为 , 1 , 2 Fα ν ν 。
t 分布,χ2 分布和F 分布是三种没有未知参数,只有自由度的概率分布,常用于抽样研 究中,故称为三种常见的抽样分布。
5、简述正态分布、t 分布、F 分布、χ2 分布之间的关系。
答:(1)若随机变量 X 服从于正态分布N μ,? 2 ,那么从总体中随机抽取的样本,其样本
均数 X 将服从于正态分布 Z 将服从于标 准正态分布,即
()
( , )
2
X
N μ ? 。令Z 为对X 进行标准化变换的结果,
/ Z X X n
X
μ μ ? ? = ? = ? 服从标准正态分布。(2)自由度为1 的χ2 分布可以
通过将服从标准正态分布的变量平方得到。(3)若随机变量X1 和X2 分别为服从自由度为v1 和v2 的χ2 分布,并且相互独立,则比值
1 )
2 1 1 1 2 2 2 2
χ / χ F X X
ν ν ν ν ν ν = = 分布( 分布( 2 )/
服从自由度为(v1,v2)的F 分布(F-distribution)。
6、目前一般的统计软件(如 SAS,SPSS 和Stata)均能随机模拟产生服从均匀分布、正态 分布、二项分布的随机数。利用这些程序,可以生成指定参数下的随机数据,这种产生 随机数的方法称为“蒙特卡洛方法”(Monte-Carlo Method)。请参考光盘中随机模拟操作, 借助统计软件随机模拟产生随机数据,重现本章中关于均数和率的抽样分布规律。 答:以Stata 为例
正态分布资料的样本均数的分布模拟。 用记事本写入下来语句 clear
set memory 100m
di \输入 样本量 总体均数 总体标准差\scalar m=`1' scalar mm=`2' scalar oo=`3' set obs 10000 local j=1 gen xx=0 gen ss=0
while `j'<=m{
gen x`j'=invnorm(uniform())*oo+mm replace xx=xx+x`j'
replace ss=ss+x`j'*x`j' local j=`j'+1 }
gen ssd=sqrt((ss-xx*xx/m)/(m-1)) replace xx=xx/m di \di \
用文件名\保存 在Stata 窗口中打入
do [路径]simumean 样本量 总体均数 总体标准差 对于Stata 7.0,输入下列命令显示样本均数的频数图 graph xx,bin(50) xlabel
对于 Stata 8.0,输入下列命令显示样本均数的频数图 graph7 xx,bin(50) xlabel
非正态分布的样本均数的分布模拟。 用记事本写入下来语句 clear
set memory 100m di \输入 样本量 \scalar m=`1' set obs 10000 local j=1 gen xx=0 gen ss=0
while `j'<=m{
gen x`j'=invnorm(uniform())^2 replace xx=xx+x`j' replace ss=ss+x`j'*x`j' local j=`j'+1 }
gen ssd=sqrt((ss-xx*xx/m)/(m-1)) replace xx=xx/m di \di \
用文件名\保存 在Stata 窗口中打入
do [路径]simumean1 样本量 总体均数 总体标准差 对于Stata 7.0,输入下列命令显示样本均数的频数图 graph xx,bin(50) xlabel
显示原始资料的频数分布图 graph x1,bin(50) xlabel
对于 Stata 8.0,输入下列命令显示样本均数的频数图 graph7 xx,bin(50) xlabel
显示原始资料的频数分布图
graph7 x1,bin(50) xlabel 样本率的分布模拟。 用记事本写入下来语句 clear
set memory 100m
di \输入 样本量 总体率 \scalar m=`1' scalar pp=`2' set obs 10000 local j=1 gen xx=0 gen ss=0
while `j'<=m{
replace xx=xx+int(uniform()+pp) local j=`j'+1 }
gen ppp=xx/m su ppp
用文件名\保存 在Stata 窗口中打入
do [路径]simumean3 样本量 总体率
对于Stata 7.0,输入下列命令显示样本率的频数图 graph ppp,bin(50) xlabel
对于Stata 8.0,输入下列命令显示样本率的频数图 graph7 ppp,bin(50) xlabel
7、利用蒙特卡洛方法,产生标准正态分布的随机数,并计算样本方差,验证方差乘自由度 (n ?1)S2服从于自由度为n ?1的 χ2 分布,两个独立样本的方差之比服从于自由度为 1 n ?1, 2 n ?1的 F 分布。 答:
标准正态分布资料的样本方差×(n-1)的分布模拟。 用记事本写入下来语句 clear
set memory 100m di \输入 样本量 \scalar m=`1' set obs 10000 local j=1 gen xx=0 gen ss=0
while `j'<=m{
gen x`j'=invnorm(uniform()) replace xx=xx+x`j' replace ss=ss+x`j'*x`j' local j=`j'+1
}
gen ss= ss-xx*xx/m
用文件名\保存 在Stata 窗口中打入
do [路径] simuvariance.do 样本量
对于Stata 7.0,输入下列命令显示样本均数的频数图 graph ss,bin(50) xlabel
对于 Stata 8.0,输入下列命令显示样本均数的频数图 graph7 ss,bin(50) xlabel F 分布的模拟。
用记事本写入下来语句 clear
set memory 100m
di \输入 样本量1 总体均数1 样本量2 总体均数2 总体标准差 \scalar m1=`1' local mn1=`1' scalar mm1=`2' scalar m2=`3' scalar mm2=`4' scalar oo=`5' set obs 10000 local j=1 gen xx=0 gen ss=0 gen xx0=0 while `j'<=m1{
replace xx0=invnorm(uniform())*oo+m1 replace xx=xx+xx0 replace ss=ss+xx0*xx0 local j=`j'+1 }
gen ss1= (ss-xx*xx/m1)/(m1-1) replace ss=0 replace xx=0 local j=1
while `j'<=m2{
gen xx0=invnorm(uniform())*oo+m2 replace xx=xx+xx0 replace ss=ss+xx0*xx0 local j=`j'+1 }
gen ss2= (ss-xx*xx/m2)/(m2-1) gen f=ss1/ss2
用文件名\保存
在Stata 窗口中打入
do [路径] simuf.do 样本量
对于Stata 7.0,输入下列命令显示统计量F 的频数图 graph f,bin(50) xlabel
对于 Stata 8.0,输入下列命令显示统计量F 的频数图 graph7 f,bin(50) xlabel 第五章
一、是非题
1.t 检验统计量服从自由度为ν 的t 分布。 答:错。只有在H0 假设为真时才成立。 2. 当拒绝0 H 时,只可能发生第一类错误。 答:对。
3. 对于H0 :μ = μ0 H1 :μ ≠ μ0的t检验,当 1 H 为真时,检验统计量/ 2,n 1 t tα ? > 的
_______概率为1?β 。
答:对。当1 H 为真时,作出正确推断的概率即为1?β 。
4. 对于0 0 1 0 H :μ = μ H :μ ≠ μ 的t检验, 0 H 为真而言,发生拒绝0 H 的机会与样 本量n 无关。
答:对。无论样本量n 多大,犯第一类错误的概率为α。
5. 对于定量资料用95%可信区间的公式0.05/ 2,n 1 X X t S? ± 估计总体均数所在范围,
要求资料服从正态分布或样本量很大。 答:对。 二.选择题
1.在同一总体随机抽样,其他条件不变,样本量越大,则总体均数的95%可信 区间( A )。
A 越窄 B 越宽 C 越可靠 D 越稳定
2.从两个不同总体中随机抽样,样本含量相同,则两总体均数95%可信区间 (D )。
A 标准差小者,可信度大 B 标准差小者,准确度高
C 标准差小者,可信度大且准确度高 D 两者的可信度相同
3.其他条件不变,可信度1-α 越大,则总体均数可信区间( A ) A 越宽 B 越窄 C不变 D还与第二类错误有关
4.其他条件不变,可信度1-α 越大,则随机抽样所获得的总体均数可信区间将 不包含总体均数的概率( B )。 A 越大 B 越小 C 不变 D 不确定
5. 区间内包含总体均数的概率为(D )。 A 95% B 97.5% C 99% D 100%
6 从某正态总体中随机抽样,样本含量固定, 区间内包含样本均数 的概率为( A )。
A 95% B 97.5% C 99% D 不确定
7.增大样本含量,则错误的是( A )。 A 可信区间的可信度变大 B x S 变小
C 同样可信度情况下,可信区间变窄 D 抽样误差减少 8.下列公式中,哪一个可以用于正态分布总体均数的95%可信区间的估计(C )。 A μ ±1.96? X B 1.96 X μ ± ? C 0.05(v) X X ± t S D 0.05(v) X ± t S
9.由两个独立样本计算得到两个总体均数的可信区间,则下列结论中正确的是 ( C )。
A 如果两个可信区间无重叠,可认为两样本均数差别无统计意义 B 如果两个可信区间有重叠,可认为两样本均数差别有统计意义 C 如果两个可信区间无重叠,可认为两样本均数差别有统计意义 D 以上都不对 10.在总体方差相等的条件下,由两个独立样本计算两个总体均数之差的可信区 间包含了0,则( B )。
A 可认为两样本均数差别无统计学意义 B 可认为两样本均数差别有统计学意义 C 可认为两总体均数差别无统计学意义 D 可认为两总体均数差别有统计学意义
11.假设检验中的第二类错误是指( D )所犯的错误。 1.96 X μ ± ? 1.96 X μ ± ?
A 拒绝了实际上成立的H0 B 未拒绝实际上成立的H0
C 拒绝了实际上不成立的H0 D 未拒绝实际上不成立的H0 12. 两样本均数比较的假设检验中,差别有统计学意义时,P 越小,说明( D )。 A. 两样本均数差别越大 B. 两总体均数差别越大
C. 越有理由认为两样本均数不同 D. 越有理由认为两总体均数不同 13.作两样本均数差别的t 检验中,P 值与α 值中( A )。 A.α 值是研究者指定的 B.P 值是研究者指定的
C.两者意义相同,数值不同 D.两者意义相同,数值相同
14. 两样本均数的t 检验,按0.05 的检验水准拒绝H0,若此时推断有误,其错误 的概率为( A )。
A 0.05 B >0.05 C <0.05 D 不一定
15.在样本均数与总体均数差别的双侧显著性检验中,结果为P<α 而拒绝H0,接 受H1,原因是( D )。
A. H0 假设成立的可能性小于α B. H1 假设成立的可能性大于1-α
C. H0 成立的可能性小于α 且H1 成立的可能性大于1-α
D.从H0 成立的总体中随机抽取一个样本,其样本均数比现有样本的均数更 远离(H0 为真时)总体均数的可能性小于α 注:假设检验是反证法思想,即:考察0 H 为真情况下,样本统计量出现背离0 H 并 且逼近1 H 的概率是否为小概率事件,所以假设检验中不涉及到0 H 成立的概
率。
三、统计分析题和简答题
1. 在假设检验中,当出现P >α 时,虽然不能拒绝 H0,但不能推断 H0成立。 (提示:假设检验是基于反证法的思想)。
答:假设检验是基于反证法的思想。拒绝H0是因为在H0为真的假设下样本 统计量出现在小概率事件范围内,所以可以推断H0非真;反之,在H0为 真的假设下样本统计量未出现在小概率事件范围,只是没有足够证据支持 不能拒绝H0。正如反证法只是寻找推翻假设的证据,并不是寻找支持假设 的证据,不能推翻假设的结果并不能成为证实假设成立的证据。事实上, 不拒绝H0 时犯第二类错误的概率β 有时还很大,并且无法由研究者直接 控制,所以不拒绝H0 时,不能直接推断H0 成立。
2. 下面是18 例冠心病患者高密度脂蛋白(HDL,g/L)的测定结果,请回答下列 问题。
0.30,0.43,0.26,0.34,0.57,0.49,0.35,0.22,0.33,0.37,0.28,0.35, 0.40,0.36,0.42,0.28,0.41,0.30 1)本题所研究的总体是什么?
答:满足者该研究中入选标准的全部冠心病患的高密度脂蛋白(HDL,g/L) 实际值的全体构成的集合。
2)根据本题的研究背景和研究问题,请用研究背景语言给出本题总体均 数的具体定义。
答:满足者该研究中入选标准的全部冠心病患的高密度脂蛋白(HDL,g/L) 实际值的平均数。
3)试估计本题的总体均数及其95%可信区间,并用通俗的研究背景语言 论述您的结果。
答:X = 0.3589, 0.08567, 18, 0.08567 / 18 0.02 X S = n = S = = ,
95%可信区间为: x X t s 0.05,17 ± =0.3589±2.11×0.02=(0.3167, 0.4011)。 以95%可信度推断冠心病患者人群的高密度脂蛋白(HDL,g/L)的平均数在 0.3167~0.4011 g/L。
3. 已知大肠杆菌在饮用水中呈Poisson 分布,根据有关规定:对于合格的饮 用水而言,平均每升饮用水中的大肠杆菌个数不超过2 个,先在某饮用水 生产处抽样2L 水,经检测发现6 个大肠杆菌,请估计该处的饮用水平均 1L 中的大肠杆菌数在什么范围内?
答:X=6,查Poisson 分布总体均数的可信区间界值表得,95%的可信区间为 (2.20/2, 13.06/2)=(1.10,6.53)。
4. 续第3 题,在实际的卫生监督执法中,一般不进行统计分析,但需要根据 统计学原理和饮用水卫生标准,指定一个饮用水大肠杆菌数的界值:随机 抽取1L 水,当检测到的细菌数低于这个界值,可以推断该处饮用水的平 均1L 水的大肠杆菌数不会超过2 个,请以95%的可信度确定这个界值。 答:μ = 2,查 Poisson 分布总体均数的 95%可信区间界值表得到大于 2 的 最小下限为X=6,其95%可信区间为(2.2,13.1),而X=5 的95%可信区 间为(1.6,11.7),所以当检测结果为大肠杆菌数≥6 时,可以推断该处饮
用水的平均每升水的大肠杆菌数μ > 2,即该饮用水不合格。
5. 续第3 题和第4 题,请推敲下列描述有何不同,适用于何种情况? 1) 每1L 饮用水中的平均大肠杆菌个数不超过2 个是合格的
2)合格的饮用水中,1L 饮用水的大肠杆菌个数不得高于于2 个
3)第3 题中,能否按1L 水检测到3 个大肠杆菌估计该处的饮用水平均每每 1L 中的大肠杆菌数在什么范围内,为什么?
答:第一个问题是对于合格的饮用水而言,平均每1L 饮用水的大肠杆菌个 数不超过 2(μ ≤ 2),也就是在检测样品为 1 升饮用水时,容许样品中的大 肠杆菌数超过2 个。
第二个问题是指检测样品为1 升水时,不容许样品中的大肠杆菌数超过2 个。(X ≤ 2)
3)根据Poisson 分布的95%可信区间推断该处的饮用水平均每升中的大肠 杆菌数在(0.62,8.8)
第六章
一、是非题
1. 随机区组设计的检验效能一定高于完全随机设计
答:错。如果在完全随机设计中,实验条件和实验过程控制都非常好,研究对象 的同质性非常好,几乎不存在可能的混杂因素,即可以认为可能混杂效应很小甚 至可以忽略,则完全随机设计的检验效能可能要高于随机区组设计。 2. 随机对照试验就是实验性研究
答:对。随机对照试验的英文名是Random control trial,缩写为RCT。在随 机分组前,随机对照试验的研究对象来自同一人群,通过选择不同的干预,构成 试验组和对照组,由此评价干预效应。因此随机对照试验就是实验性研究,但要 注意:实验性研究未必是随机对照试验。 3. 随机对照试验就是完全随机设计
答:错。随机对照试验贯彻了随机化原则,对照组和实验组间除实验因素不同 外,其他条件基本相同,研究设计可以是完全随机对照设计,也可以是随机区组 设计。
4. 采取随机分组可以提高检验效能
答:错。采取随机分组的主要目的是控制或减少混杂因素对结果的影响,与检 验效能没有直接的连续。
5. 为了研究A 因素与死亡的关系,采用队列研究,但所获样本资料不能估计人 群的A 因素暴露比例。
答:对。因为队列研究是根据A 因素的不同暴露水平分别入选研究对象,由此 建立不同暴露水平的队列进行随访研究的。如按A 因素暴露和非暴露分别入组 2000 人进行随访,因此暴露人数与非暴露人数是1:1,与人群中的暴露比例无 关。即:队列研究中的研究对象中的暴露比例是人为确定的,不是人群的暴露比 例。
二、选择题
1. 病例对照研究的主要缺点之一是 C A. 研究周期长 B. 病例不容易收集 C. 容易产生选择性偏倚 D. 容易失访
2. 病例对照研究的主要优点之一是 C A. 容易失访 B. 不容易发生测量偏倚
C. 患病率很低的疾病也适用 D. 很容易选择和收集对照 3. 病例对照研究最好应选择 D 为对照 A. 健康人 B. 医院中未患该疾病的人
C. 医院中的正常人 D. 根据研究背景选择符合一定条件的未患该疾病的 人
4.采用配对设计的主要目的是 B 。
A 减少样本含量 B 减少混杂因素对结果的影响 C 提高统计检验的功效 D 有利于统计分析 5. 下列说法哪一个是正确的 。
A. 采用完全随机设计可以使试验组和对照组同时减少混杂因素的影响 B. 采用随机区组设计可以控制了混杂因素对结果的影响
C. 采用随机区组设计可以减少了混杂因素对结果的影响,当效应指标与研究 因素之间存在混杂效应的情况下,采用配对设计可以提高了统计检验的效 能。
D. 采用完全随机设计可以控制混杂因素在试验组和对照组达到概率意义下 的平衡,由此提高了统计检验的效能。 三、简答题
1. 实验性研究和观察性研究的根本区别是什么? 答:主要区别在于是否人为给予干预措施,如果研究者人为施加了干预措施那么 就是实验性研究,如果研究者没有施加干预措施,而是以客观、真实的观察为依 据,对观察结果进行描述和对比分析,那么就是观察性研究。另外在干预前,实 验性研究的研究对象来自同一群体;比较性质的观察性研究的对象一般来自不同 人群。
2. 实验设计的三个基本原则是什么?
答:实验设计的基本原则:对照、随机、重复。设立对照和贯彻随机化是使各组 均衡可比的两个非常重要的手段。重复就是指试验组和对照组需要满足一定的样 本量。
3. 随机化的作用是什么? 答:随机化是采用随机的方式,使每个受试对象都有同等的机会被抽取或分到不 同的实验组和对照组。随机化使不可控制的混杂因素在实验组和对照组中的影响 较为均匀,并可归于实验误差之中;它也是对资料进行统计推断的前提,各种统 计分析方法都是建立在随机化的基础上。
4. 为比较两种药物对小鼠移植性肉瘤生长有无抑制作用的效果,如果由文献报 道,小鼠肿瘤重量的标准差在0.7g 左右而小鼠肿瘤重量测量的有效精度在 0.5g 左右,规定此检验分辨的能力Δ = 0.5 g,标准差S = 0.7 g,α = 0.05, Z0.05/ 2 =1.96以及β=0.20,试估计每组所需样本量?如何将小鼠分组?并写 出分组结果。
答: 每组样本量估计
2 2 2 2 0.05 / 2 0.2
2 2
2( ) 2(1.96 0.842) 0.7 31 0.5 n Z Z + ? +
= = = Δ
考虑到可能存在一定的脱落,增加 20%样本量,故每组样本量取n =1.2×31 = 38。 随机分组方案如下:
将76 只小鼠编号:1,2,?,76。
设置种子数200(可以任意设置一个数值作为种子数)
借助Stata 软件产生76 个在(0,1)上均匀分布的随机数,每个随机数对应一 个研究对象:小鼠。
对76 个随机数从小到大排序,最小的38 个随机数对应的小鼠编号为试验组,最 大的38 个随机数对应的小鼠编号为对照组。 借助Stata 软件实现如下:
set obs 76 设置观察记录数为76 gen id=_n 产生编号1~76 set seed 200 设置种子数200 gen r=uniform() 产生随机数 sort r 对随机数进行排序
gen group=1-int((_n-1)/38) 设置最小的38 个随机数为group=1,其它为group=0
sort id 按编号排序
list id group 列出随机分组名单
第七章 一、是非题
1. 在两样本t 检验中,t 检验统计量服从自由度为n1+n2-2 的t 分布。 答: 错,只有H0 :μ1 = μ2为真才成立
2. 对于两个样本的样本量都很大时,t 检验对正态性的要求可以忽略。
答:对,根据中心极限定理可知,样本量很大时,样本均数的分布逼近正态分 布。
3. 对于两个样本的样本量都很大时,t 检验对方差齐性的要求可以忽略。 答:不对,方差齐性与样本量大小无关。
4. 对于观察单位不一致的两样本Poisson 分布资料的平均水平检验,要求两个 样本的均数1 X , 2 X 均大于30。
答:不对,只要求在原始观察单位的情况下,原始观察值均大于30,详细见 本章基本概念辩析。
5. 在假设检验中,当拒绝H0 时,还可能存在第二类错误。
答:不对,犯第一类错只可能发生在拒绝H0 时,犯第二类错误只可能发生在 不拒绝H0 时。所以当拒绝H0 时,就不可能存在第二类错误。 二、选择题:
1. 两个样本均数不一致,t 检验时P>0.05,则( C ) A.可以认为两个总体均数相等 B.可以认为总体均数不同
C.没有足够证据可以推断总体均数不同 D.可以认为两个样本来自同一总体
2. 两独立样本均数的比较,P<0.001,拒绝H0 时可推论为( A )。 A. 1 X 与2 X 间差异有统计学意义 B. 1 X 与2 X 的差异无统计学意义 C. 1
μ 与2 μ 间差异无统计学意义 D. 1 μ 与2 μ 间差异有统计学意义
3. 完全随机设计的两样本比较的秩和检验中,编秩次的方法是( C )。 A. 将两组数据分别编秩,各组秩次分别相加求秩和
B. 将两组数据混合,从小到大统一编秩,再相加求总秩和
C. 将两组数据混合,从小到大统一编秩,再将各组秩次分别相加求秩和 D. 将两组数据分别编秩,全部秩次相加求秩和 4. 两独立样本连续型定量资料比较,当分布类型不清时选择( C )总是正确的。 A. t 检验 B. Z 检验 C. 秩和检验 D.χ 2检验
5. 两独立样本连续型定量资料的比较,应首先考虑( D )。 A t 检验 B 秩和检验 C χ 2检验
D 资料符合哪些统计检验方法的条件,在符合的统计方法中选择Power 高的 检验方法。
6. 对两样本均数做比较时,已知 1 2 n , n 均小于 30,总体方差不齐且分布呈偏态,
宜用(C )。
A. t 检验 B. t'检验 C. 秩和检验 D. 无法检验
7. 对两样本均数比较的 t 检验,无效假设正确的是( A )。 A. H
0
: 1 2 μ μ = B. H
: 1 2 μ ≠ μ C. H0: 1 2 X = X D. H0: 1 2 X ≠ X
0
8. 两样本秩和检验的备择假设是( C )。
A.两组所对应总体分布相同 B.两组所对应总体均数相等
C.两组所对应总体分布不相同 D.两组所对应总体均数不全相等 9. 秩和检验和 t 检验相比,秩和检验的优点是(A )。
A.不受分布限制 B.公式更为合理 C.检验效能高 D.抽样误差小 10. 两 Poisson 分布资料的均数比较,正确的是(B )。 A.观察单位不等时,可以直接比较
B.观察单位不等时,应先将观察单位化为相等,再进行比较
C.比较时不用考虑观察单位
D.观察单位相等时,不可以直接比较
11. Y服从 Poisson分布,如果Y观察值为 40,则可以认为X = Y /10 (D) A. 服从Poisson 分布但也近似正态分布 B. 服从Poisson 分布
C. 不能认为近似正态分布
D. 不服从Poisson 分布但近似服从正态分布
注:借助 Poisson分布的 95%可信区间可知:观察值Y = 40,其 95%可信区间的
下限为 28.58>20,可以推断 Poisson 分布的总体均数μ > 20,并且可以认为Y 近
似服从正态分布,根据正态分布的随机变量乘以一个非0 常数仍旧服从正态分布 的原理,所以可以认为X = Y /10近似服从正态分布。 三、简答题:
1.某医院用新药与常规药物治疗婴幼儿贫血,将20 名贫血患儿随机分为两组, 分别接受两种药物治疗,测得血红蛋白增加量(g/L)如下表,请回答下列问题: 1) 新药与常规药的疗效有无差别?
2) 根据研究问题,请分别给出两个样本所在总体的定义。 表7-8 两种药物治疗婴幼儿贫血的血红蛋白增加量(g/L)
新药组 24 36 25 14 26 34 23 20 15 19 常规组 14 18 20 15 22 24 21 25 27 23
解:方差齐性检验P=0.1258>0.1,不能认为方差不齐
正态性检验:两组资料的正态性检验的P 分别为0.55 和0.81,均不能否认两组资料分 别服从正态分布。
故可以采用成组t 检验比较两组资料的平均水平。 (1)采用完全随机设计两样本比较的t 检验。 建立检验假设:
H0: 1 2 μ = μ ,新药与常规药治疗后的血红蛋白增加量总体均数相同; H1: 1 2 μ ≠ μ ,新药与常规药治疗后的血红蛋白增加量总体均数不同。
α = 0.05。
计算t 统计量:t=1.02, P=0.3215>0.05
结论:不能拒绝H0,两个样本均数的差异无统计学意义,尚不能认为接受新药与常规药 治疗后的两个婴幼儿人群的平均血红蛋白增加量有不同。
(2)新药组的总体定义:接受新药治疗的贫血婴幼儿人群的的血红蛋白增加量 常规组的总体定义:接受常规药治疗的贫血婴幼儿人群的的血红蛋白增加量
2.测量从事贸易的33 名代谢综合征患者和从事贸易的31 名健康者的血清瘦 素水平,其X ± S 分别为 49.14±6.72ng/ml 和 16.18±3.99ng/ml(假定血清瘦素实
际值近似服从正态分布)。试比较两个人群血清瘦素平均水平有无差异。 解:假定资料近似正态分布,所以首先考虑方差齐性检验。
H0 :?1 =? 2 H1 :?1 ≠? 2
α = 0.10
齐性检验的统计量F = 2.837,P=0.0052<α,所以应认为方差不齐。故选用 t' 检验。
H0 :μ1 = μ2 H1 :μ1 ≠ μ2
α = 0.05
t′ =1.0195, ν =14.5, P = 0.3247,差异无统计学意义。没有充分证据可以 认为两个人群血清瘦素的平均水平是不同的。
3.为研究冠心病对眼底动脉硬化的影响,某医院调查了40 例冠心病患者和 32 例非冠心病患者,检查每个人的眼底动脉硬化情况,整理如表2,请回答下列 问题。
1)这两个样本属于哪一类研究设计得到的 2) 请根据上述样本资料作统计分析
3) 根据研究背景,请问:下结论时应考虑哪些非研究因素最可能会影响统 计分析结果。
表7-9 冠心病患者和非冠心病患者眼底动脉硬化情况 眼底动脉硬化级别 组别
0 级 Ⅰ级 Ⅱ级 Ⅲ级 合计
冠心病组 5 18 12 5 40 非冠心病组 20 9 3 0 32
答:这是观察性研究中的病例对照研究, 评价观察指标为眼底动脉硬化级别, 这是一个有序分类资料,根据研究问题,可以作两组的秩和检验。 H0 :两个人群的眼底动脉硬化级别的分布相同 H1 :两个人群的眼底动脉硬化级别的分布不同
α = 0.05
检验统计量Z=4.5 ,P<0.0001,两个人群的眼底动脉硬化级别的分布不同, 基于冠心病组的平均秩(46)高于非冠心病组的平均秩(25),可以推断冠心病人群 的眼底动脉硬化的平均程度高于非冠心病患者。
4. 在两个样本t 检验,如果方差不齐,但两组样本量相同并且很大,能否忽略t 检验对方差不齐的要求?(提示:比较t 检验和t'检验公式) 解:对于n1 = n2 = n,
1 2 1 2 2 2 2 2 1 1 2 2 1 2 1 2 1 2 1 2
2 2 1 2
( 1) ( 1) ( 1 1 ) ( 1) ( 1) (2) 2 22 t X X X X
n S n S n S n S n n n n n n X X t S S n n ? ? = =
? + ? ? + ? +
+ ? ? ? ′ = = +
2 2 2 2 2 2 2 4 4 2 2 1 1 2 2 1 2 1 2 1 2 2 2 2 2 4 4 4 4 1 1 2 2 1 2 1 2 2 1 2
( / / ) ( ) / 2 ( 1) 1 ( / ) ( / ) ( ) ( ) 1 1 ( 1)
S n S n S S n S S S S n n S n S n S S S S n n n n
ν
+ + + +
= = = ? ≥ ? + + +
? ? ?
当样本量n 充分大时,自由度ν 也是充分大, t 分布逼近标准正态分布,即 tα / 2,n?1 ≈ tα / 2,2(n?1) ≈ Zα / 2。综上所述,如果两个样本量相同并且充分大,则 t
检验与t′ 检验使非常接近的,所以如果方差不齐,但两组样本量相同并且充 分大,可以忽略方差不齐的条件。
5. 对于两组资料进行正态性检验,应该两组分别进行正态性检验还是两组资料 合在一起作正态性检验?请讨论在大样本的情况下,两组资料合在一起作频
数图可能会出现哪些情况。
解:应该分别做正态性检验。因为两组可能来自不同的正态分布,例如:两组 来自正态分布,但第一组资料所在的总体,其总体均数100,第二组资料所 在总体,其总体均数为120,在样本量较大的情况下,频数图可以分析,第 一组的频数图的峰在100 左右,第二组的频数图的峰在120 左右,两组资料 合并作频数图往往会出现两个峰:一个峰在100 左右,另一个峰在120 左右, 对于双峰的分布的资料一般会认为非正态分布,对这样两组合并,频数图呈 双峰的资料做正态性检验,其结果往往是非正态分布的结果,所以要分组分 别作正态分布。
6. 如果1 2 3 4 5 6 7 X , X , X , X , X , X , X 相互独立并且服从总体均数为 3 的 Poisson 分
布,问:能否认为样本均数X 近似服从正态分布?为什么?
解:因为X1, X2 , X3 , X4 , X5 , X6 , X7相互独立并且服从总体均数为 3 的 Poisson 分布,由 Poisson 分布的可加性可知:Y = X1 + X2 +",+ X7服从总体均数为 21 的Poisson 分布,对于总体均数>20 的Poisson 分布已经可以较好地近似 正态分布,既然Y 已经可以很好地近似正态分布,而除以一个非0 常数或乘 以一个非 0常数,其正态性不会改变,所以X = Y / 7同样很好地近似正态分 布。
第八章 一、是非题
1. 方差分析是双侧检验
答:是否为双侧检验是考察被选假设1 H :各个均数不等,所以方差分析是双侧检验。 2. 在样本量较大时,方差分析对资料的正态性要求可以忽略
答:对,当样本量大时,其样本均数近似正态分布,所以可以忽略资料对正态性的要求。 3. 在样本量较大时,方差分析对资料的方差齐性要求可以忽略 答:错。方差齐性与样本量大小没有直接。
4. 对于完全随机设计,总样本量不变的情况下,如果各组的样本量相同,则检验效能相对 较高
答:对。可以证明:在总样本量相同的情况下,当各组样本量相同时,检验效能最大。 5. 如果各组的样本标准差相差不超过0.1,则可以认为各组之间的方差是齐性的。
答:错。例如3 组样本标准差分别为0.1,0.01,0.05,每组样本量均为20,作方差齐性检验, 可以验证方差齐性的差异有统计学意义,所以需做方差齐性检验。 二、选择题
1. 完全随机设计资料的方差分析中,必然有( C )。 A. 组间SS > 组内SS B. 总 组间 组内 MS = MS + MS C. 总
ss =
组间
SS + 组内SS
D. 组间 组内 MS > MS
2. 多个样本定量资料比较,当不满足独立、正态、方差齐性等条件情况下应选择( D )。 A. 方差分析 B. t 检验 C. Z 检验 D. Kruskal-Wallis 检验
3.当组数等于2 时,对于同一资料的双侧检验,方差分析结果与t 检验结果( D )。 A.完全等价且F= t B.方差分析结果更准确 C.t 检验结果更准确 D.完全等价且t= F 4.方差分析结果,
0.05( 1 , 2 )
F F ν ν > ,则统计推论结论是( A )。
A. 各总体均数不全相等 B. 各总体均数都不相等 C. 各样本均数都不相等
D. 各样本均数间差别都有显著性
5.单因素方差分析中的组内均方是( A )的统计量。 A.表示平均的随机误差度量
B.表示某处理因素的效应作用度量
C.表示某处理因素的效应和随机误差两者综合影响的结果 D.表示N 个数据的离散程度
6. g 个组方差齐性检验拒绝0 H ,可认为( A )。 A. 2
1
? 、2 ? 、?、2 ? 不全相等
2
g
B.μ 1 、μ 2 、?、g
μ 不全相等
C.S1 、S2 、?、Sg 不全相等 D. X 1、X 2、?、X g 不全相等 三、简答和分析题
1.方差分析的基本思想和应用条件是什么?
答:方差分析的基本思想均是变异分解,通过比较各种成分的变异程度的大小,来确定各个 样本对应的总体均数是否相同。方差分析要求各组资料相互独立,方差齐性和每组资料服从 正态分布(样本较大时可忽略正态性要求)。 2.Kruskal-Wallis 检验的基本思想是什么?
答:Kruskal-Wallis 检验是一种类似于Wilcoxon 秩和检验的方法,可看作Wilcoxon 秩和检 验的拓广,用来检验多个样本所来自的总体分布是否相同。
Kruskal-Wallis 检验的基本思想是:先将各处理组数据混合在一起按小到大顺序进行编秩, 如果有相同数据则取平均秩次,记观测值ij Y 的秩为Rij ,对每一个处理组观测值的秩求和得 到
1 ni i ij j
R R
=
=Σ ,其中i =1,",,g是每一处理组的编号, 1, , i j = ", n 是每一处理组内部个体
值的编号。由Ri = Ri ni 计算每一处理组的平均秩次,如果无效假设( 0 H : g 个总体分布相
同)为真,各组资料来自同一总体,则秩应该在g 个处理组样本之间均匀分布,每个样本实 际的平均秩i R 与所有资料的平均秩R = (N +1) / 2的偏差应该很小或较小;如果被择假设 ( 1 H : g 个总体分布不全相同)为真,这些Ri之间的差异可能较大或很大,相应的( )2 i R ?
R
可能较大或很大。
3.为什么在拒绝H0、接受H1 之后,对多个样本均数的两两比较要用多重比较的方法? 答:因为比较g 个总体均数的方差分析的无效假设与备择假设分别为:
0
H :所有总体均数相等( 1 2 g μ = μ =",= μ ) : H 并非所有的总体均数 i μ 相等
1
只要有任意两个总体均数之间不相等,即1 H 成立。
4. 实验分为4 个组,每组例数分别为n1=5, n2=8, n3=4 及n4=8。已计算出F 统计量, F=4.77,如何评价这项实验结果?
答:F0.05(3,21)=3.07,F=4.77>3.07,P<0.05。
结论:按α = 0.05水准,拒绝 H0,接受 H1,即认为四个实验组总体均数不等或不全相等。 5. 24 名甲状腺功能低下的婴儿,按病情严重程度把他们分为3 个水平:轻度组9 名,
中度组8 名,重度组7 名。表8-14 列出了他们的血清甲状腺素含量(n mol/l)。试分析不同严 重程度的婴儿血清甲状腺素水平是否差异有统计学意义。分别用LSD 法和Bonferroni 法作 多重比较,对结果作出统计学和专业领域内的解释。
表8-14 24 名甲状腺功能低下的婴儿血清甲状腺素含量(n mol/l) 病情分类 例数 甲状腺素含量 轻度 9 34 45 49 55 58 59 60 72 86 中度 8 8 25 36 40 42 53 65 74 重度 7 5 8 18 32 45 47 65
答:对3 组资料分别作正态性检验,P 值分别为0.86,0.98 和0.66,方差齐性检验的P 值为 0.558,所以可以按方差齐性和正态分布资料进行单因素方差分析。 (1)建立检验假设:
H0:三个总体均数相等,即三个不同病情组的婴儿血清甲状腺素含量相等
H1:三个总体均数不全相等,即三个不同病情组的婴儿血清甲状腺素含量不全相等
α =0.05
(2)计算统计量:F=3.62,F0.05(2,21)=3.47,P<0.05。
(3)结论:拒绝H0,接受H1,可认为三个总体均数不全相等,即三个不同病情组的婴儿 血清甲状腺素含量不全相等。 (4)
两个样本均数之差 LSD P 值 Bonferroni P 值 mean1-mean2 14.680556 0.135482 0.406 mean1-mean3 26.126984 0.014519 0.044 mean2-mean3 11.446429 0.268553 0.806
经LSD 和Bonferroni 法作多重比较结果均提示:病情轻度组与重度组的总体均数差异有 统计学意义,说明病情轻度组与重度组的婴儿血清甲状腺素含量不相等。
6. 某地用四种药物杀灭钉螺,每次用200 只活钉螺,用药后清点每批钉螺的死亡率(%)
见表8-15,请分析这四种药物的效果有无差异。 表8-15 四种药物杀灭钉螺试验结果 试验组 试验次数 钉螺死亡率(%) 甲 6 46.5 39.5 40.5 32.5 49.5 30.0 乙 6 36.0 29.0 20.5 22.5 16.5 26.0 丙 4 24.0 8.5 9.2 6.5
丁 7 4.5 6.5 2.5 4.5 18.2 50.0 43.1
答:本题资料为百分率,不符合正态条件,现用Kruskal-Wallis 检验。 (1)建立检验假设:
H0:四种药物致钉螺死亡率的总体分布相同 H1:四种药物致钉螺死亡率的总体分布不全相同
α =0.05
(2)编秩,求秩和,计算检验统计量:
Kruskal-Wallis Test x2 =8.8188,ν = 2,P=0.0318。 (3)结论:
按α =0.05 拒绝H0,接受H1,认为四种药物致钉螺死亡率的总体分布不全相同,即四种药 物的效果有差异。 第九章 一、是非题
1. 成组设计的资料作配对 t 检验,不但合理,而且平均起来可以提高统计效率。
答:错。成组设计的资料不含有配对信息,所以无法作配对t 检验,即使勉强配对,也将时 期配对后随机分组,所以不可行。
2. 满足参数检验的配伍区组设计资料,如果采用非参数检验,会增大第Ⅰ类错误。 答:错,会增大第2 类错误。
3. 随机区组设计的方差分析通常需要从背景上排除了研究因素与区组因素的交互作用。 答:对。
4. 设配对设计资料的一对变量为(X1,X2),则相应配对符号秩检验的编秩方法是把X1、X2 的差数d = X1 ? X2从小到大进行编秩。
答:不对,按d 的绝对值从小到大进行编秩,然后按照d 的正负号赋予秩。
5. 对于配伍区组设计资料,只有在总的检验结论有统计学意义之后,才用两两比较的方法 来进一步确定哪二组之间有差别。 答:对。主要控制第一类错误。
6. 为分析某市2005 年不同区域大气中的氮化物含量,某研究者选取了8 个采样点,对每个 采样点的4 个不同时点进行监测与资料收集,则该资料属于配伍区组设计资料。
答:错,同一城市不同采样点之间的氮化物含量是不独立的,同样同一采样点的4 个不同时 点的氮化物含量也是不独立的,所以该资料不属于配伍区组设计资料。 二、选择题
1. 对于配对 t 检验,下列说法错误的是( B )
A. 对于配对设计的资料应作配对t 检验,如果作成组t 检验是无法控制犯第一类错误的概 率,所以配对设计资料作成组t 检验是错的。
B. 成组设计的资料作配对t 检验,不但合理,而且平均起来可以提高统计效率
C. 成组设计的资料,无法作配对t 检验
D. 作配对t 检验或成组t 检验,应根据原始设计类型而定 2. 配对设计的秩检验中,其H0 假设为( C ) A. 差值的总体均数为0 B. 差值的总体均数不为0 C. 差值的总体中位数为0 D. 差值的总体中位数不为0
3. 满足方差分析检验方法的配伍区组设计资料,如果采用Friedman 检验,则将( B ) A. 犯第Ⅰ类错误的概率增大 B. 犯第Ⅱ类错误的概率增大 C. 犯第Ⅰ类错误的概率减小 D. 犯第Ⅱ类错误的概率减小 4. 随机区组设计的方差分析中,必然有( A )
A. SS = SS + SS + SS 总 处理 区组 误差 B. MS < +MS +MS 处理区组误差 C. SS > SS + SS 处理 区组 误差 D. MS = MS +MS +MS 总 处理 区组 误差
5. 在随机区组设计的方差分析中,通常已经从研究背景排除了可能存在( C ) A. 研究因素的作用 B. 区组因素的作用
C. 研究因素与区组因素的交互作用 D. 变异的分解 三、统计分析题和简答题
1. 为比较两种方法对乳酸饮料中脂肪含量测定结果有无区别,某研究者随机抽取了 10 份 乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定结果(表9-1),假设该资料 满足参数检验条件,问该两种方法所测定的乳酸饮料中脂肪平均含量是否不同? 表9-19 两种方法对乳酸饮料中脂肪含量的测定结果(%) 序号 脂肪酸水解法 哥特里-罗紫法 1 2 3 4 5 6 7 8 9 10 0.580 0.509 0.500 0.316 0.337 0.517 0.454 0.512 0.997 0.506 0.840 0.591 0.674 0.632
0.687 0.978 0.750 0.730 1.200 0.870
答:计算配对差值=脂肪酸水解法测量脂肪含量-哥特里-罗紫法测量脂肪含量,做正态性 检验,P=0.999,故采用配对t 检验。 (1)建立检验假设,确定检验水准
0 0 = d H :μ ,该两种方法所测定的乳酸饮料中脂肪平均含量相同 0 1 ≠ d H :μ ,该两种方法所测定的乳酸饮料中脂肪平均含量不同
α = 0.05
(2)差值的均数为-0.2774,计算统计量t 值:t=-7.93,ν =10,P<0.01。
(3)下结论:按α = 0.05水准拒绝 H0,接受 H1,可以认为该两种方法所测定的乳酸饮料
中脂肪平均含量不同,基于差值的样本均数<0,推断哥特里-罗紫法测定乳酸饮料中脂肪平 均含量高于脂肪酸水解法测定乳酸饮料中脂肪平均含量。
2. 采用重量法和 EDTA 法对9 个水样中硫酸盐的含量进行测定,结果见表9-2,若该资料 不满足参数检验的条件,试比较两法测定水样中硫酸盐的平均含量有无差别? 表9-20 两种方法测定水中硫酸盐含量(mg/l)的比较 水样号 重量法 EDTA 法 1 2 3 4 5 6 7 8 9 115.3 354.0 337.5 222.3 156.4 56.6 58.5 678.6 1792.6
115.3 355.4 336.2 215.2 159.5 57.6 59.5 653.2 1786.7
答:计算差值=重量法水中硫酸盐含量- EDTA 法水中硫酸盐含量,对差值作正态性检验,P=
0.00238<0.05,可以认为不满足差值正态性要求,故采用Wilcoxon 符号秩和检验,检验步骤 如下:
(1) 建立检验假设,确定检验水准
0 0 = d H :M ,差值的总体中位数为 0 0 1 ≠ d H :M ,差值的总体中位数不为 0
α = 0.05
(2) 计算统计量T
首先编秩,求秩和:总的对子数n=8,正秩和T+=24,负秩和T-=12 计算统计量 T=min(T+ ,T-)=12 (3) 确定概率,作出推论
本例,n=8,查附表 10,在α = 0.05检验水准下,得到不拒绝 H0的 T 界值范围为(3,33), 本例T=12,在不拒绝范围内,P>0.05,即不拒绝H0,尚不能认为重量法和EDTA 法两法 测定水样中硫酸盐的平均含量有差异。
3. 为研究雌激素对大白鼠子宫重量的影响,取4 窝大白鼠,每窝3 只,随机地分配到3 个 组内接受不同剂量雌激素的注射,经一定时间后测定其子宫重量,结果见表9-3。假定 资料满足参数检验条件,问:注射雌激素对大白鼠子宫重量是否有影响? 表 9-21 不同剂量组大白鼠的子宫重量(g) 大白鼠窝别 雌激素剂量(μg/100g) 0.2 0.4 0.8 A B C D 106 42 70 42 116 68 111 63
145 115 133 87
答:计算残差eij = Xij + X ? Xii ? Xi j,对残差做正态性检验,P=0.095>0.05 用leven 方法作残差作方差齐性检验,P=0.701>0.10,故采用随机区组方差分析。 (1) 建立检验假设,确定检验水准 针对处理组
H0:注射3 种剂量的大白鼠子宫的平均重量相同
H1:注射3 种剂量的大白鼠子宫的平均重量不全相同
α = 0.05
(2) 计算统计量F 值
计算可得到如下表的方差分析表。 方差分析表
变异来源 SS ν MS F P 处理组 区 组 误 差 总 6074.00 6457.67 543.33 13075.00 2 3 6 11
3037.00 2152.56 90.56 33.54 23.77 0.0006 0.0010
即统计量 F 处理=33.54,F 区组=23.77 (3) 确定概率,作出推论
对于处理效应,按α = 0.05水准,拒绝 H0,可认为不同剂量组大白鼠的子宫重量不同或不
全相同,注射雌激素对大白鼠子宫重量有影响。
做两两比较,用 Bonferroni 校正α = 0.05 / 3 = 0.0167。 注射剂量 平均数X 两组样本均数之差 P值
0.2μg/100g 65 X1 ? X2 = ?34.5 <0.001 0.4μg/100g 89.5 X1 ? X3 = ?55 0.004 0.8μg/100g 120 X2 ? X3 = ?30.5 0.0108
P 值均小于校正的α,各个均数之间的差异均有统计学意义,故可以推断注射0.8μg/100g 剂
量的大白鼠子宫的平均重量高于注射0.4μg/100g 剂量的大白鼠子宫的平均重量,注射 0.4μg/100g 剂量的大白鼠子宫的平均重量高于注射0.2μg/100g 剂量的大白鼠子宫的平均重 量。
4. 将 24 只小白鼠按窝别不同分为8 个区组,再把每个区组中的观察单位随机分配到3 种 不同的饲料组,喂养一定时间后,测得小鼠肝脏中铁含量,结果见表9-4,若资料不满 足参数检验条件,试分析不同饲料小鼠肝脏中的铁平均含量是否有差别? 表9-22 不同饲料组小鼠肝脏中铁含量(μg/g) 区组 饲料A 饲料B 饲料C 1 2 3 4 5 6 7 8 1.00 1.01 1.13 1.14 1.70 2.01 2.23 2.63 0.96 1.23 1.54 1.96 2.94 3.68 5.59 6.96 2.07 3.72 4.50 4.90 6.00 6.84
8.23 10.33
答:计算残差eij = Xij + X ? Xii ? Xi j,对残差做正态性检验,P=0.44>0.05
用leven 方法作残差作方差齐性检验,P=0.0081<0.10,故可以认为残差的方差不齐,故采用 Friedman 非参数检验。
(1) 建立检验假设,确定检验水准 H0:三个总体分布相同
H1:三个总体分布不同或不全相同
α = 0.05
(2) 计算统计量Pearson 2
χ p值,下结论。
x2 =14.0625,P<0.01。可以认为三种不同饲料小鼠肝脏中铁的平均含量有差异。
用配对符号秩检验进行两两比较,用 Bonferroni 校正α = 0.05 / 3 = 0.0167 两两比较的组别 差值定义 正秩和负秩和P 与α比___________较 第一组 vs 第二组 第一组-第二组 1 35 0.0173 >α 第一组 vs 第三组 第一组-第三组 0 36 0.0117 <α 第二组 vs 第三组 第二组-第三组 0 36 0.0117 <α
第三组与第一组和第二组小鼠的肝脏中铁的平均含量差异有统计学意义,可以推断食用饲料 C 的小鼠的肝脏中铁的平均含量分别高于食用饲料A 和食用饲料B 的小鼠的肝脏中铁的平
均含量。 5、简答题
1) 配对设计资料的分析方法有哪些?其应用条件各是什么?
答:常用的统计方法有配对t 检验和配对符号秩检验:两种方法均要求配对差值之间独立, 并且配对t 检验要求配对差值近似服从正态分布,配对符号秩检验不要求正态性。 2) 配对设计差值的符号秩和检验的基本思想是什么?其主要步骤是什么?
答:Wilcoxon 符号配对秩检验的基本思想是:推断配对资料的差值是否来自中位数为0 的 总体。具体检验步骤为:建立检验假设,确定检验水准, 0 0 = d H :M ,差值的总体中位
数为0;接着计算统计量T:(a)编秩,求秩和:先根据差值的绝对值由小到大进行编秩, 然后按差值的正负在秩次前加上正负号。若差值为0,舍去不计,同时总的对子数也相应减 掉之;若差值的绝对值相等,取其平均秩次。最后,分别求出正负秩次之和T+与T-。(b)计 算统计量:在T+与T-中,以绝对值较小者作为统计量T,即T=min (T+ ,T-)。(c)确定概率, 作出推论:通过查表法(当5 ≤ n ≤ 50时)或正态近似法(当 n >50 时)。 3) 配伍区组设计资料的分析方法有哪些?其应用条件各是什么?
答:配伍区组资料的分析方法有随机区组设计的方差分析和Friedman 非参数检验。 随机区组设计的方差分析,应满足如下条件:①各区组之间观察资料是相互独立的随机样本; ②正态性:残差服从正态分布;③方差齐性:各处理组残差的总体方差相等。
非参数检验方法――Friedman 检验:要求资料满足各区组之间观察资料是相互独立的随机 样本。
4) 配对t 检验与随机区组设计资料的ANOVA 有何关系?
答:对于配对t 检验的双侧检验,处理水平为2 时,两种方法是完全等价的,并且t= F , P 值相同。
5) 符合方差分析检验方法的配伍区组设计资料,如果采用Friedman 检验,则会导致什么问 题?
答:符合方差分析检验方法的配伍区组设计资料,如果采用Friedman 检验,将会降低检验 效能,增大犯第二类错误的概率。 6) 配伍区组设计的优点是什么?
答:配伍区组设计为双因素设计,它考虑的因素有一个处理因素和一个区组因素,在确实存 在混杂因素的情况下,选择合适的控制措施,可以提高实验效率。 第十章 一、是非题
1 双变量正态分布的资料,样本回归系数b <0,经假设检验P <0.05,可以认为两变量间呈 负相关。
答:对。由于资料服从双正态分布,所以可以做Pearson 相关,而线性相关的检验统计量与 线性回归的检验统计量相等:tb = tr,自由度相同,故两者检验的 P 值相同,所以两者的检
验是等价的,故由回归系数b<0 说明相关系数r<0,由P<0.05,所以两个变量之间的相关性 有统计学意义,可以推断两个变量呈负相关。
2 相关系数的假设检验P >0.05,说明两变量无关系。 答:错,只能说明没有足够的证据说明两变量呈相关的。 3 r 越接近1,两变量间相关关系越密切。
答:错,只能说明样本中两个变量取值所呈现的相关交往密切,不能说明两个变量之间的关 系密切,因为样本的相关系数大小与样本量关系密切,特别n=2 时,样本相关系数的绝对 值往往为1。
4. 直线回归系数的数值表示自变量变动一个单位时因变量的值变动的量。 答:错。应该是因变量的值平均改变的量。 5. 回归系数越大,两变量的数量关系越密切。
答:错。回归系数越大,说明自变量变化1 个单位时,因变量的值平均改变的量越大。 二、选择题
1.第一组的资料的相关系数1 r 检验P<0.05,第二组的相关系数 2 r 假设检验P < 0.01, 则可以认为__C____。
A 第一组资料两变量关系密切 B 第二组资料两变量关系密切
C 很难说哪一组变量关系密切 D 至少能说明两变量关系密切程度不一样 2.如果相关系数r =1,则一定有___C___。 A. 总SS = 残差SS B. 残差SS = 回归SS C. 总SS = 回归SS D. 总SS > 回归SS
3. 如果两样本的相关系数 1 2 r = r ,那么__C____。 A . 回归系数 1 2 b = b B.t统计量 r1 r 2 t = t C. 两样本的决定系数相等 D.t统计量 b1 b2 t = t
注:当两个样本的样本量不同时,t统计量 b1 b2 t = t 和t统计量 r1 r 2 t = t 均不成立。 4.记ρ 为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列哪项正确____D__。
A.ρ =0 时, r =0 B.| r |>0,b >0
C. r >0 时,b <0 D. r <0 时,b <0
5. Y? = 14 + 4X 是 1~7 岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成 国际单位kg,则此方程 C 。 A.截距改变 B.回归系数改变
C.截距和回归系数都改变 D.两者都不改变
6. 一组双变量正态分布资料,用最小二乘法建立回归方程:Y a b X 1 1 ? = + ,X a b Y 2 2 ? = + ,
计算得到的相关系数为r ,则 A 。 A.r 2 = 1 2 b b B. 0 1 2 b + b = C. 1 2 b = b D. 1 1 2 b b = 三、简答题与统计分析题
1. 某研究者分别在8 岁和9 岁的男孩中各随机抽取8 人,测量了他们的身高,得到下列资 料。
表10-8 8 名8 岁男孩和8 名9 岁男孩的身高(cm)资料 8 岁组 123 129 128 129 129 123 129 121 9 岁组 133 137 130 126 132 138 133 137 请回答下列问题
1)如果比较两个年龄组的平均身高,应该用什么方法进行统计检验
答:1)在满足正态分布、方差齐性的条件下,采用成组设计的t 检验。
2)对于比较两个年龄组的平均身高的统计检验而言,这两个总体的具体定义分别是什 么?这两个总体均数的具体定义分别是什么?
答:两个总体的定义分别是8 岁男孩人群的身高和9 岁男孩人群的身高实际值。两 个总体均数的定义分别是8 岁男孩人群的平均身高和9 岁男孩人群的平均身高。
3) 如果以年龄为横坐标,身高总体均数为纵指标,是否可以认为8 岁男孩人群和9 岁 男孩人群的身高总体均数在某条直线上。
答:因为8岁男孩与9岁男孩的身高总体均数与其年龄构成平面上的两点(8,μ8 )和
(9,μ9 ),故可以认为 8 岁男孩人群和 9 岁男孩人群的身高总体均数在某条直线
上,因为两点连线构成一条直线。
4)如果这两组资料满足每组资料服从正态分布并且方差齐性,现以年龄为自变量,身高 为因变量,请验证:年龄与身高的资料满足简单线性回归对资料的要求,并写出总 体回归方程,并用年龄=8 和年龄=9 分别代入总体回归方程,解出总体回归系数。 答:对于8 岁的男孩身高可以表示为2
Y|8 ~ N(μ8,? ),即 2
ε = Y|8 ?μ8 ~ N(0,? )对于
9 岁的男孩身高可以表示为2
Y|9 ~ N(μ9 ,? ) , 2
ε = Y|9 ?μ9 ~ N(0,? ) 记
β = μ9 ?μ8,因此对于 8 岁的男孩身高 2 Y = μ8 +ε ,ε ~ N(0,? ),对于 9 岁的男
孩身高2
Y = μ9 +ε = μ8 +β +ε ,ε ~ N(0,? ),记变量 x=1 表示 9 岁,x=0 表示 8
岁,β0 = μ8 。因此Y = β0 +β1x +ε ,ε ~ N(0,? 2 ) ,相应的总体回归方程为
μY|x = β0 +β1x,其中回归系数β = μ9 ?μ8。
2. 随机抽取12 名成年人,测得他们的身高(cm)和体重(kg)如表10-9。 表10-9 12 名成人的身高(cm)和体重(kg) 受 试 者 编 号 指标
1 2 3 4 5 6 7 8 9 10 11 12
体重 56.5 69.1 64.5 75.0 65.0 76.0 47.5 71.5 68.0 49.5 57.5 82.0
身高 156.5 172.0 167.5 176.0 170.0 167.5 145.0 158.5 161.0 150.0 159.0 180.5 (1) 分析这两项指标是否相关以及相关程度的大小。
答:(1)r=0.8720,P=0.0002,说明身高与体重这两项指标存在相关关系。 (2) 求身高和体重之间的直线回归方程并对回归方程进行解释。
答:体重(X)与身高(Y)之间的直线回归方程为:Y=107.61055+ 0.85945X。
对回归系数的假设检验结果tb=5.64,P<0.01,说明直线回归方程是有统计学意义的。 即成年人体重每增加1kg,估计身高平均增加0.85945cm。
(3) 假如知道了一个人的身高是173.8cm,如何预测它的体重? 答:首先建立Y 与X 的回归方程:X= -79.65729+ 0.88515Y, 再将Y=173.8 代入该回归方程,得X=74.1818。
3 某医师研究污染源距离和尘肺浓度的关系,数据如下 表10-10 污染源距离和尘肺浓度
离污染源距离(m) 200 300 400 500 600 700 800 900 1000 尘肺浓度(0.01mg/m3) 4.5 3.7 3.2 2.4 2.0 1.5 1.2 0.8 0.7 请作统计分析。
答:建立污染源距离X 与尘肺浓度Y 的回归方程式:Y= 5.10222+(-0.00480)X。 对回归系数的假设检验 = ?14.03 b t ,P<0.01。说明:离污染源距离增加1m,尘肺浓度减 少0.00480(0.01mg/m3)单位。
4. 在线性回归分析中,如果决定系数R2 = 0.01,请问:回归分析是否有意义?请说明理由。 答:R2 = 0.01时,回归分析作预测没有意义,因为R2 =0.01反应了Y 的总变异中回归关系 所能解释的部分只占1%,但仍有可能两个变量存在线性回归关系。
5. 如果两个变量的资料做Spearman相关分析,得到相关有统计学意义(P<0.05),你能否认为 这种相关是线性相关?还是非线性相关?请解释这种相关意义的背景特点是什么?
答:可以认为这种相关是线性相关。Spearman 等级相关系数的计算公式类似与pearson 相关系数,不过在此应用的是数据的秩次,而不是原始数据本身。
6. 在线性回归中,如果所有的样本点均在一条斜率不为0的直线上,请问:回归系数的标准 误Sb有什么特点(提示:由tr = tb,解出Sb与相关系数r)? 答:
2
2 1
r
t r n r = ? ? ,
b b
t b S =
,
由tr = tb 得,
1 2 2 b S b r r n ? = ?
,由此可以发现:当
r →0并且b ≠ 0时,Sb →∞;| r |→1时,Sb →0,说明:当b ≠ 0时,相关系数的
绝对
值越大,Y 与X 伴随变化的离散程度就越小。
第十一章
一、是非题
1、两独立样本四格表资料的χ 2检验要求n ≥ 40且理论数T ≥ 5。 答:对
2、3 个样本率比较的Pearson 2
χ p检验中, 0 H : 1 2 3 π =π =π , 1 H : 1 2 3 π ,π ,π 互不相同 。
答:对
3、在样本量很大时,两独立样本四格表资料符合Pearson 2
χ p检验要求,但仍可以用 Fisher
检验,并且从检验的效果上考虑,可以认为Fisher 检验优于Pearson 2
χ p检验。
答:错。因为Fisher 检验假定行合计数和列合计数是固定的,这与实际抽样的情况不一致, 所以也是一种近似。当样本量较大时,Pearson 2
χ p检验可以非常适合四格表资料统计分析,
所以这时Fisher 检验反而较差。
4、配对设计的四格表资料也可以用Pearson 2
χ p检验,只是检验效能较低。
答:错,Pearson 2
χ p检验只能检验行变量与列变量之间的关联性,不能检验配对四格表中
的两个率是否相等。
5、χ 2分布是一种连续型随机变量的概率分布,因此 Pearson 2
χ p检验也可用于均数的比较。
答:错,均数比较往往还应考虑消除标准差的影响,如t 检验,而Pearson 2
χ p检验无法完
成此类检验。
6. 对于某个统计方法检验一类资料,当0 H 为真时,拒绝0 H 的概率≤α;当0 H 非真时,检
验效能很低,则称该资料统计分析方法的选择是错误的。( )
答:错。不能认为该资料统计分析方法的选择是错误的,只是所选择的统计方法不够优。 二.选择题
1.多个样本率比较的Pearson 2
χ p检验,若 P<α,说明: D 。
A.各样本率均不相等 B.各总体率均不相等 C.各样本率不全相等 D.各总体率不全相等
2.四格表中,如果有一个实际数为0 ,___D______。 A.根本不能检验 B.不能作
χ 2 检验
C.能够作
χ 2 检验 D.根据实际数尚不能决定是否可以作
χ 2 检验
3.对于总合计数n 为51 的5 个样本率比较的Pearson 2
χ p检验,其自由度为 B 。
A.50 B.4 C.1 D.47
4.欲比较丙氨酸氨基转移酶两种水平对HBeAg 阴转的影响,资料见表11-21,应进行 C 。
A. 两独立样本四格表资料χ 2检验 B.配对四格表资料χ 2检验
C. 四格表资料Fisher 精确概率检验 D.t 检验 表11-21 丙氨酶氨基转移酶水平对疗效的影响 丙氨酸氨基转移 酶
. HBeAg + - ≤3ULN >3ULN 16 4 4 8
5.为考察食物频数问卷的可重复性,某研究者采用同一问卷对每一个人在不同时间分别进 行2 次调查,共调查了100 人。其中,胆固醇摄入量的两次调查结果见表11-22。欲分析两 次调查胆固醇摄入量的关联性,宜采用 B 。 表11-22 食物频数问卷中胆固醇摄入量调查结果 第2 次调查 第1 次调查 高 正常 高 32 9 正常 13 46 A. b c
b c + ? =
2
χ 2 ( ) B. b c b c + ? ? =
2
χ 2 (| | 1)
C. Σ ? = T A T 2
χ 2 ( ) D.
1 2
1 2
S t X X
X X ?
? =
三、计算题
1.某地 7 岁健康男童身高(cm) 抽样调查资料表 11-23。请采用拟合优度的χ 2 检验,推断
该资料是否服从正态分布?
表11-23 某地7 岁健康男童身高(cm) 身高组段 人 数 108~ 1 110~ 3 112~ 9 114~ 9 116~ 15 118~ 18 120~ 21 122~ 14 124~ 10 126~ 4 128~ 3 130~ 2 132~134 1 合 计 110
解:先计算均数和标准差
用表中的组段中组中值作为原始数据进行计算,得到 X = 119.9455,S = 4.72129 ,由于
样本量较大,视为总体参数估计值,对组段的上下限作标准正态分布变换
119.9455 4.72129 Z X ?
= ,并计算各个组段的概率和期望值,得到结果如下
身高组段 人 数 Ai 标化后的下限 标化后的上限 出现在组段的概率 期望人数Ti
108~ 1 -2.530 -2.107 0.012 1.307 110~ 3 -2.107 -1.683 0.029 3.148 112~ 9 -1.683 -1.259 0.058 6.354 114~ 9 -1.259 -0.836 0.098 10.748 116~ 15 -0.836 -0.412 0.138 15.233 118~ 18 -0.412 0.012 0.164 18.091 120~ 21 0.012 0.435 0.164 18.004 122~ 14 0.435 0.859 0.136 15.014 124~ 10 0.859 1.282 0.095 10.492 126~ 4 1.282 1.706 0.056 6.143 128~ 3 1.706 2.130 0.027 3.014 130~ 2 2.130 2.553 0.011 1.239 132~134 1 2.553 2.977 0.004 0.427 合 计 110
其中出现在组段的概率= Φ(标化后组段上限) ?Φ(标化后组段下限),Φ(z)为标准 正态分布的累计概率;
= × =110× i 期望人数T 总人数出现在该组段的概率出现在该组段的概率。 按下列公式计算拟合优度,其中 Ai 为第 i 个组段的实际人数,Ti为第 i 个组段的期望人
数
2 2 2 2
2 ( ) (1 1.307) (3 3.148) (1 0.427) 4.04
1.307 3.148 0.427
i i i
A T T
χ ? ? ? ? =Σ = + +",+ =
自由度=组段数-1-估计的参数个数=13-1-2=10
H0 :资料服从正态分布 H1 :资料不服从正态分布
α = 0.05
H0为真时,统计量 χ 2服从自由度为 10 的χ 2分布,即:如果统计量 2 2
χ > χ0.05(10),则拒
绝H0。因为 2
χ0.05(10) = 10.83,拟合优度统计量 χ 2远远小于临界值 10.83,所以不能否认
该资料服从正态分布。
2、某研究者测定了29 例燃煤型砷中毒患者皮肤组织中P53 mt 蛋白表达,29 例中有9 例为病
理证实癌变患者(A 组),另20 例未发现癌变(B 组),结果见表11-24。试比较两组间P53 mt
蛋白阳性水平。
表11-24 两组间P53 mt 蛋白阳性水平 组别 例数 P53 mt 蛋白阳性数 A 组 9 7 B 组 20 6
答:把上述表格改写为下列表格
组别 P53 mt 蛋白阴性数P53 mt 蛋白阳性数 A 组 2 7 B 组 14 6
总样本量<40,用Fisher 检验: H0 : P53 mt 蛋白阳性与癌变无关联 H1 :P53 mt 蛋白阳性与癌变有关联 α=0.05
Fisher 检验P=0.041<0.05
可以认为P53 mt 蛋白阳性与癌变有关联。 3、某研究者欲观察物理因子与基础疗法综合治疗粘连性不全性肠梗阻的疗效,将100例符合 粘连性不全性肠梗阻诊断标准的患者随机分为治疗组和对照组,每组各50例。治疗组采用物 理因子与基础疗法综合治疗,对照组仅给予基础疗法治疗,观察比较两组疗效。结果见表 11-25。问两种治疗方案的疗效是否相同?
表11-25 治疗组与对照组治疗粘连性不全性肠梗阻的疗效 组别 有效 无效 治疗组 49 1 对照组 40 10
答:因为最小理论数=
11 50 5.5 5 100 ×
= > ,总样本量>40,所以可以用Pearson 2
χ p进行统计
检验。
H0:两种治疗方案疗效相同 H1:两种治疗方案疗效不同
α = 0.05
计算 Pearson χ 2p = 8.2737,P=0.004<0.05,差异有统计学意义,所以可以认为采用物理因
子与基础疗法综合治疗的疗效优于基础疗法治疗的疗效。
4、为研究甲、乙、丙三种疗法治疗小儿单纯性消化不良的效果,某医生将106 例符合入选
标准的患儿随机分为三组,分别采用甲、乙、丙三种疗法治疗,结果见表11-26。问三种疗 法的疗效是否相同?
表11-26 三种疗法治疗小儿单纯性消化不良的效果 疗法 病例数 痊愈数 治愈率(%) 甲 33 26 78.79 乙 38 36 94.74 丙 35 24 68.57
H0:三种治疗方案疗效相同 H1:三种治疗方案疗效不全相同
α = 0.05
计算 Pearson χ 2p = 8.3203,P=0.016<0.05,差异有统计学意义,所以可以认为三种治疗方
案疗效不全相同。
两两比较:α = 0.05 / 3 = 0.0167 两种治疗方案比较 Pearson 2
χ p P值
甲疗法 vs 乙疗法 4.0587 0.044 差异无统计学意义 甲疗法 vs 丙疗法 0.9109 0.340 差异无统计学意义 乙疗法 vs 丙疗法 8.5219 0.004 差异有统计学意义
基于上述结果,可以认为乙疗法的疗效优于丙疗法的疗效。
5、为比较乳房切除术后两种不同化疗方法治疗效果,共治疗500 对患者,每一对内2 名患 者的年龄(差别在± 2.5 岁以内)及临床状况基本一致,随机分配各对中的2 人,分别进入
A 疗法组与B 疗法组,结果见表11-27。问两种化疗方法治疗效果是否相同? 表11-27 两种化疗方法治疗效果 A B
生存5年及以上 5年内死亡 合计
生存5年及以上 407 15 422 5年内死亡 4 74 78 合计 411 89 500
用配对的确切概率法:n = 4 +15 =19 x = 4
H0:两种治疗方案疗效相同,π = 0.5 H1:两种治疗方案疗效不同,π ≠ 0.5
α = 0.05
P = 0.019211 ,差异有统计学意义,可以认为 A方案的疗效优于 B 方案。
第十二章
一、是非题
1.反因变量为有序多分类的多组资料比较的统计分析首选Pearson 2
χ p检验。
答:错。反因变量为有序多分类变量,多组资料比较一般不选Pearson 2
χ p,而是可以采
用秩和检验,包括Wilcoxon 秩和检验和Kruskal-Wallis 检验(Kruskal-Wallis test)分别用来 推断两个或多个独立样本有序分类资料的总体分布是否有差别。 2.比较某两种药物的有效率,在样本量较大时可用Pearson 2
χ p检验。
答:对。可用四格表Pearson 2
χ p检验。
3.比较某两种药物治疗疼痛的疗效,把疼痛分为无,轻,中和重4 个等级。可以考虑用 Wilcoxon 秩和检验。
答:对。这是两独立样本的有序多分类资料,可以考虑选用Wilcoxon 秩和检验。 4.双变量有序分类资料相关性的分析可进行秩变换后计算Pearson 线性相关系数。 答:对。这就是Spearman 等级相关系数。 5.秩和检验不同于秩变换的统计方法。
答:对。秩变换的方法中,取秩后秩次数据是代入对应的t 检验或方差分析等公式进行统 计分析;而秩和检验是将原变量值按照从小到大的顺序排秩后,采用秩次进行假设检验。两 者是不同的。 二、选择题
1.两组有序分类资料的比较宜用( B )。 A.t 检验 B.秩和检验 C.F 检验 D.四格表χ 2检验
2.两组有序分类资料的秩和检验中,各等级的平均秩次为( C )。 A.该等级的秩次范围的上界 B.该等级的秩次范围的下界
C.该等级的秩次范围的上界、下界的平均数 D.该等级的秩次范围的上界、下界的之和
3.有序分类资料两样本比较的秩和检验中,如相同秩次过多,应计算校正Zc值,校正的 结果使( A )。
A.Z 值增加,P 值减小 B.Z 值增加,P 值增加 C.Z 值减小,P 值增加 D.Z 值减小,P 值减小
4.按等级分组的资料做秩和检验时,如果用H值而不用校正后的HC.值,则会(C )。 A. 提高检验效能
B. 会把一些相同总体推断为不同总体
C. 会把来自不同总体的样本差异推断为无统计学意义 D. 第I、II 类错误概率不变
5.四组病人疗效(痊愈、显效、好转、有效、无效)的比较,宜用什么方法分析( B )。
A. 方差分析 B. 秩和检验 C. Pearson 2
χ p检验
D. 四格表直接概率法
6.两独立样本比较的秩和检验,其检验统计量是( C )。 A. 一般取秩和较小者为T B. 一般取秩和较大者为T
C. 一般取例数较小者的秩和为T D. 一般取例数较大者的秩和为T 三、简答题与计算题
1.两组或多组的因变量为有序分类资料的比较,为什么不能用Pearson 2
χ p检验,而用秩
转换的非参数检验? 答:对于因变量为有序分类资料,一般根据研究背景可知需要各组之间的某种平均水平的差 异,而不是概率分布的差异。若选用Pearson 2
χ p检验,其研究问题为两组或多组所对应的
总体分布是否相同,不是检验两组或多组所对应的总体平均水平是否相同,所以用 Pearsonχ 2 检验不能回答背景所面临的研究问题,而秩和检验的原理是基于平均秩,即:基
于平均秩为平均水平的比较,所以其检验结果和推断是基于平均秩意义下的平均水平的比 较。
2.多组的因变量为有序分类资料比较的Kruskal Wallis H 检验,备择假设H1 如何写?为 什么?
答: 1 H :多个总体的分布不全相同。只能作出多组资料所来自的总体分布总的有无差 别的检验。
3.当多组的因变量为有序分类资料得到拒绝H0,接受H1 的结论时,需进行样本之间的两 两比较,可以采取的方法有哪些?使用中要注意什么?
答:可以采用的方法有:多个样本两两比较的Nemenyi 法和Wilcoxon 秩和检验,但采 用 Wilcoxon秩和检验进行对比组间的比较时,检验水平α 要调整为:α ′ =α / k ,k为比较
的次数,以减少犯第一类错误的概率,但检验效能会下降。
4.表12-15的资料是某药治疗两种不同病情的老年慢性支气管炎病人的疗效,问该药对两 种病情的疗效是否不同?
表12-15 某药对两种不同病情的老年慢性支气管炎病人的疗效 疗 效 单纯型 单纯型合并肺气肿 无 效 13 11 有 效 30 23 显 效 18 6
痊 愈 65 42 合 计 126 82
答:(1)建立检验假设,确定检验水准。 0 H :该药对两种病情的疗效相同 1 H :该药对两种病情的疗效不同
α = 0.05
(2)混合编秩,求各组秩和。
某药对两种病情的疗效秩和检验计算表 秩和
疗 效 单纯型 (1)
合并肺 气肿(2) 合计
(3)=(1)+(2) 秩号范围 (4)
平均秩次 (5) 单纯型 (6)=(1)×(5) 合并肺气肿 (7)=(2)×(5)
无 效 13 11 24 1~24 12.5 162.5 137.5 有 效 30 23 53 25~77 51 1530 1173 显 效 18 6 24 78~101 89.5 1611 537 痊 愈 65 42 107 102~208 155 10075 6510 合计 126 82 208 - - 13378.5 8357.5
根据第(5)列和第(1)、(2)列可分别算出两组的秩和: 单纯型的秩和: R1= 13378.5 单纯型合并肺气肿: R2=8357.5 (3)计算秩检验统计量。
Z = 0.543,P=0.5874>0.05。
(4)下结论:
以α = 0.05检验水准接受 H0,不能认为两样本来自不同的总体,即没有足够的证据可以推
断该药对两种病情的疗效不同。
5.对某病采用西药治疗与中西药结合治疗,对两组病人的疗效观察结果如表12-16,试比 较两组的疗效是否相同。
表12-16 不同治疗组的疗效观察 疗 效 中西药结合 西药 无 效 21 79 有 效 30 70
显 效 39 61 痊 愈 32 68 合 计 122 278
答:(1)建立检验假设,确定检验水准。 0 H :两组疗效相同 1 H :两组疗效不同
α = 0.05
(2)混合编秩,求各组秩和。 不同治疗组的疗效秩和检验计算表 秩和 疗 效 中西药 结合 (1) 西药 (2) 合计
(3)=(1)+(2) 秩号范围 (4)
平均秩次
(5) 中西药结合 (6)=(1)×(5) 西药 (7)=(2)×(5)
无 效 21 79 100 1~100 50.5 1060.5 3989.5 有 效 30 70 100 101~200 150.5 4515 10535 显 效 39 61 100 201~300 250.5 9769.5 15280.5 痊 愈 32 68 100 301~400 350.5 11216 23834 合计 122 278 400 - - 26561 53639
根据第(5)列和第(1)、(2)列可分别算出两组的秩和: 中西药结合组的秩和: R1= 26561,平均秩为217.7 西药组的秩和: R2=53639,平均秩为192.9 (3)计算秩检验统计量。
Z=2.037 ,P= 0.0416<0.05。
(4)下结论:
以α = 0.05检验水准拒绝 H0,接受 H1,两组疗效差异有统计学意义,认为中西药结合治疗
的疗效优于单纯西医的疗效。
6.对54例牙病患者的64颗患牙依据根端形态不同分为三种,X线片显示喇叭口状为A型, 管壁平行状为B型,管壁由聚状为C型。经一段时间治疗后的结果列于表12-17,试比较不同 根端形态的患牙的疗效有否差别。
表12-17 不同根端形态分型的疗效比较 根端形态 牙数 成功 进步 失败 A 型 18 3 9 6 B 型 24 10 10 4 C 型 22 10 11 1 合 计 64 23 30 11
答:(1)建立检验假设,确定检验水准。
H :三个根端形态的患牙的疗效相同 1 H :三个根端形态的患牙的疗效不全相同
0
α = 0.05
(2)混合编秩号,分组求秩和 1 2 3 R , R , R 三个根端形态的患牙的疗效秩和检验计算表 根端形态 根端形态 疗效 A (1) B (2) C (3) 合计 (4)
秩次范围 (5)
平均秩次 (6) A
(7)=(1)×(6)
B
(8)=(2)×(6)
C
(9)=(3)×(6)
成功 3 10 10 23 1~23 12 36 120 120 进步 9 10 11 30 24~53 38.5 346.5 385 423.5 失败 6 4 1 11 54~64 59 354 236 59
合计 18 24 22 64 736.5 741 602.5 (3)计算检验统计量H。
由于有序分类资料存在大量的同秩情况,采用校正公式:H H c c = / ,计算检验统计量。
12 736.52 7412 602.52 ( ) 3 (64 1) 5.521 64 (64 1) 18 24 22 H= + + ? × + = × +
校正系数c 为:
3 3 3 3
3 3
( )
1 1 23 23 30 30 11 11 64 64
i i i
t t c N N ?
? ? + ? = ? ? ? ?
Σ ( )+( )( )
= =0.846
校正后得检验统计量为:Hc = H / c = 5.521/ 0.846 = 5.521 (4)求P 值,下结论。
由于有序分类资料的样本例数往往较大,在0 H 为真的情况下,检验统计量H 近似服从 自由度为 k-1(k 为处理组数)的χ 2分布,因此,可查χ 2界值表(附表 8)确定 P 值。 本例,查自由度为2的χ 2值表得 2
0.05 2
3.84 5.521 c χ < H = ,= ,有P < 0.05。差异有统
计学意义,可以认为三种根端形态的牙治疗效果不全相同。 两两比较,用Wilcoxon rank-sum test,α = 0.05 / 3 = 0.0167
两种根端形态疗效比较 Z P 推断
A型 与 B型 1.804 0.0712 差异无统计学意义 A型 与 C型 2.542 0.0110 差异有统计学意义 B型 与 C型 0.655 0.5125 差异无统计学意义
基于平均秩,可以认为A型根端形态的牙治疗效果优于C型。
7.根据表12-18 的资料,问三种产妇在产后一个月内的泌乳量有无差别? 表12-18 三种产妇在产后一个月内的泌乳量 泌乳量 早产 足月产 过产期 无 30 132 10 少 36 292 14 多 31 414 34 合计 97 838 58
答:H0 :三种产妇在产后一个月内的泌乳量分布相同
H1 :三_______种产妇在产后一个月内的泌乳量分布不全相同
α = 0.05