似正态分布,可按以下公式求总体率的(1-α)可信区间:
p?uα/2Sp,其中p为样本率,Sp为率的标准误,uα/2为标准正态分布α水平的双侧临界值。 α=0.05时,u0.05/2=1.96;α=0.01时,u0.01/2=2.58。
例:为了解某医院剖腹产情况,在该医院随机抽查了106人,其中施行剖腹产者62人,试估计该医院剖腹产率。
解:本例n=106,X=62,样本率P=
62P(1?P)=0.585,Sp==0.048 106n 因np=62与n(1-p)=44均大于5,由p?uα/2Sp,得
可信下限:0.585-1.96×0.048=49.1% 可信上限:0.585+1.96×0.048=67.9%
即该医院总体剖腹产率的95%可信区间为(49.1%,67.9%)。 三、两总体率之差的区间估计
1、设两个独立样本率分别为p1、p2,当n1与n2均较大,且p1、1-p1和p2、1-p2均不太小,一般认为,当n1p1、n1(1-p1) 、n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布对两总体率的差别做出区间估计:
([p1-p2]-uα/2Sp1-p2,[p1-p2]+uα/2Sp1-p2),其中率之差的标准误Sp1-p2=
p1(1?p1)p2(1?p2)?
n1n2 例:对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每
组均为100人。甲药治疗组80位患者有效,乙药治疗组50位患者有效,试估计两种降压药有效率之差的95%可信区间。
解:将甲、乙两药治疗组的患者数、治疗有效数分别以n1、X1和n2、X2表示,则n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5,p1=80/100=0.8,p2=50/100=0.5,得: Sp1-p2=
p1(1?p1)p2(1?p2)0.8(1?0.8)0.5(1?0.5)??==0.064
100100n1n2 ([0.8-0.5]-1.96×0.064,[0.8-0.5]+1.96×0.064)
即两种降压药有效率之差的95%可信区间为(17.45%,42.55%)
2、服从Poisson分布的样本资料,其总体均数1-α可信区间的估计方法如下: (1)查表法:当X?50时,查附表8。
(2)正态近似法:当X>50时,估计总体均数的1-α可信区间公式为X?uα/2
X。
第四节 RR值和OR值的估计
相对危险度:是两个人群发病率的比值,通常为暴露人群的发病率与非暴露人群(或指定参照人群)的发病率之比。设暴露人群发病率为π1,非暴露人群发病率为π0,相对危险度RR=π1/π0
当RR=1时,表示该因素对疾病的发病无影响;当RR>1时,表示该因素为危险因素,它使发病危险度增大;
当RR<1时,表示该因素为保护因素,它使发病危险度减少。 ★测定相对危险度的调查研究两大类型:队列研究、病例对照研究。 队列研究可计算各组人群发病率,进而可直接估计相对危险度;
病例对照研究不能直接计算暴露人群和非暴露人群发病率,故不能直接估计相对危险度,而要通过计算优势比(OR)来近似估计相对危险度。 一、RR值的估计
1、对队列研究,根据研究对象在随访观察期间有无变化而具有以下两种不同模式:
(1)发病密度:是研究对象在观察期间由于失访、死亡等原因不断变化,而以观察人年(或其它人时单位)为分母计算的发病率。
队列研究发病密度资料整理表
组别 暴露组 非暴露组 合计
发病人数
a c m
观察人年数
L1 L0 L
人年发病数
a/L1 c/L0 m/L
总体相对危险度RR的点估计为:^RR=
a/L1c/L02
2(aL?mL1) 对两个样本率差别进行假设检验时:??,v=1 mL1L0 (2)累计发病率:研究对象在观察期间无变化,以开始随访观察时的人数为分母计算的发病率。
队列研究累计发病率资料整理表
组别 暴露组 非暴露组 合计
发病人数
a c m1
未发病人数
b d m0
合计 n1 n0 n
累计发病率
a/n1 c/n0 m1/n
a/n1 总体相对危险度的点估计为:^RR=
c/n0(n?1)(ad?bc)2 对两个样本率差别进行假设检验时:??,v=1
n1n0m1m02 ★两种模式下的总体相对危险度RR的(1-α)可信区间:^RR(1?u?/2?2)
二、OR值的估计
1、成组设计的病例对照研究 优势或比数(odds):指某事件发生的概率与其对立事件发生的概率之比。 成组设计病例对照研究资料的四格表
组别 病例组 对照组 合计
^OR=ad/bc
★估计优势比可信区间的方法有:直接计算概率法、Woolf法、Cornfield法、Miettinen法。 (1)Woolf法:
lnOR的95%可信区间为ln^OR?1.96Var(ln^OR),其中Var(ln^OR)= OR的95%可信区间为^ORexp(?1.96Var(lnOR))
暴露
有 a c m1
无 b d m2
合计 n1 n2 n
1111??? abcd1.96(n?1)(ad?bc)22)? (2)Miettinen法: OR的95%可信区间为^OR,v=1。 ?2,其中??nnmm(1
1010 2、配对设计病例对照研究
配对设计资料的四格表格式
病例暴露水平
+ - 合计
对照暴露水平
+ a c a+c
- b d b+d
合计 a+b c+d n
(b?c?1)21.96b()22,其中?? OR=优势比OR的95%可信区间为^OR1?,v=1。 ?c(b?c) 第七章 假设检验
假设检验:指研究者事先根据现有知识对未知总体的分布和未知参数作出某种假定,再通过一次新的实验(观察)结果来推断假定是否成立。假设检验的主要目的是为新发现、新结论提供统计学依据。 1、 第一节 假设检验的概念 假设检验的基本思想:
2、 反证法思想,即事先对总体分布(通常是该分布的某个参数)作出某种假设,若样本信息不支持该假
设,则认为原假设不成立。
3、 根据“小概率事件在一次试验中一般不会发生”的原理,用概率的思想决定是否拒绝原假设。 第二节 假设检验的基本步骤 1、 建立假设检验,确定检验水准。 2、 计算检验统计量。
3、 确定P值,做出推断结论。
P>0.05,不拒绝H0;P?0.05,拒绝H0,接受H1。
检验水准:也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为α. 第三节 u检验 一、大样本均数比较的u检验:
★均数比较的u检验的两个基本前提:样本数据服从正态分布、已知总体方差。 ★均数比较的u检验主要适用于总体方差未知的大样本数据。 1、样本均数与总体均数比较的u检验 u=
X??0?0,(?0指已知理论值)当总体标准差σ0未知,n?60时,σ0=S。
n例:根据1983年大量调查结果,已知某地成年男子的脉搏均数为72次/分钟。某医生2003年在该
地随机调查75名成年男子,求得其脉搏均数为74.2次/分钟,标准差为6.5次/分钟,能否据此认为该地成年男子的脉搏数不同于1983年?
解:
(1)建立假设检验,确定检验水平
H0:μ=72,即该地成年男子的平均脉搏没有变化
H1:μ≠72,即该地成年男子的平均脉搏与1983年不同 α=0.05
(2)计算检验统计量
u=
X??0?0=
74.2?726.575=2.93
n(3)确定P值,做出推断结论
检验界值u0.05/2=1.96,u0.01/2=2.58,u>u0.01/2,得P<0.01,按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为该地成年男子的脉搏与1983年不同。
2、两样本均数比较的u检验:适用于完全随机设计的两组计量资料差别的比较, u=
X1?X2?X,其中两均数之差标准误?X1?X2=
?12n1?2?21?X2n2
2S12S2? 当总体标准差σ1、σ2未知,两组例数均超过30时,^?X?X=。
12n1n2例:为研究孕妇补锌对胎儿生长发育的影响,将96名孕妇随机分为试验组和对照组,一组在孕期不同时间按要求补锌,另一组为对照组,观察两组孕妇所生新生儿出生体重有无不同。两组的例数、均数、标准差分别为:补锌组n1=48,X1=3427.8g,S1=448.1g;对照组n2=48,X2=3361.9g,S2=400.1g。问补锌对新生儿出生体重有无影响?
解:本例是两样本计量资料,每组例数超过30,故可用两大样本均数比较的u检验。 (1)建立检验假设,确定检验水准
H0:μ1=μ2,即两组新生儿出生体重总体均数相等,补锌对新生儿出生体重无影响 H1:μ1≠μ2,即两组新生儿出生体重总体均数不相等,补锌对新生儿出生体重有影响 α=0.05
(2)计算检验统计量
22S12S2448.11400.122? ^?X?X===86.71 ?12n1n24848 u=
X1?X23427.8?3361.9==0.76
86.71?X?X12 (3)确定P值,做出推断结论
u
★大样本率的u检验的基本原理是:假定样本率p服从正态分布。 ★率的u检验对统计量的要求:(1)若样本率p介于0.1~0.9之间,每组例数大于60例;(2)当样本率在0.1~0.9以外时,需要保证np或n(1-p)的最小值大于5。 1、单样本率的u检验:
u=
p??0?p=
p??0?0(1??0)n
例:全国调查结果显示,学龄前儿童营养性贫血患病率为23.5%,某医院对当地1396例学龄前儿童进行了抽样调查,查出营养性贫血患儿363例,患病率为26.0%。问该地学龄前儿童营养性贫血患病率是否不同于全国平均水平?
解:
(1)建立假设检验,确定检验水准
H0:π=0.235,即该地学龄前儿童营养性贫血患病率与全国相同 H1:π≠0.235,即该地学龄前儿童营养性贫血患病率与全国不同 α=0.05