3.举例说明对合计率标准化的基本思想。
答:两人群发病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。
举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?答:(1)度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。(2)比较均数相差悬殊的多组资料的变异度。例如,3岁儿童与20岁成年人身高差异的比较。 t分布的图形与特征
t分布为一簇单峰分布曲线,ν不同,曲线 形状不同;;t分布以0为中心,左右对称
t分布与ν有关, ν越小, t值越分散,t分布的峰部越低,而两侧尾部翘得越高;当ν逼近∞, S X逼近 σX ,t分布逼近u分布 统计图的概念
用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。 统计图的种类
条图 (bar chart)圆图(pie chart)百分比条图(percent bar chart)线图(line graph)直方图(histogram)散点图(scatter diagram)统计地图(statistical map) 数据分析中应用:箱式图、茎叶图、残差图等。
条图(bar chart)用等宽直条的长短来表示相互独立的各统计;指标的数值大小。分为: ①单式条图:具有一个统计指标,一个分组 因素;②复式条图:具有一个统计指标,两个分组因素;③分段条图:具有两个有隶属关系的统计指标,一个分组因素。
圆图pie chart:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成比相加为100%的资料。 绘制:
(1)计算各部分的角度:圆心角(度)=各部分百分比?360° (2)绘制图形:先画出圆形,再借助量角器画出各圆心角。
(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。 直方图histogram
即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。
绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。 箱式图(箱-髯图)(box-whisker plot)
用于比较两个或多个样本分布的中心位置和散布范围。 P0 P25 P50 P75 P100
随机抽样的基本原则,亦称“随机化”原则,即总体中每个个体的被抽中的机会均等
1.单纯随机抽样也称简单随机抽样,是最简单、最基本的抽样方法。是指所有抽样的基本单位有同样的概率被抽取的抽样方法。
2.分层抽样---此抽样方法的特点是先按某种特征(如性别、年龄、职业、教育程度等)将调查人群分为若干层,然后样本在各层中分别随机抽样,并合成调查。
3.机械抽样,又称系统抽样-_是按照某种顺序给总体中的各个体编号,然后随机的抽取一个编号作为第一调查个体,其他的调查个体则按照某种规定的规则抽取。
4、整群抽样_---常应用在以社区居民为对象的大规模流行病学调查中。先将总体分成若干群体,形成一个抽样框;从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称整群抽样。 4种基本抽样方法比较 单纯随机抽样 系统抽样 简便易形;易得到安比例分配的样本 整群抽样 分层抽样 抽样误差小;对不同层可采用不同抽样方法;可对不同层独立进行分析 需要掌握对抽样对象的分层特征。抽样工作量大 主要用于控制重要混杂因素影响 优点 简单直观,是其它抽样的基础 ;均数(或比率) 及标准误计算简便 缺点 不适合从例数较多的总体抽样; 样本分散, 难以组织调查 适用主要用于小样本的情范围 形 便于组织;节省经费;容易控制调查质量 如果抽样间隔与抽样对象的某特征分布吻合,易产生偏差 适合抽样对象有某种顺序编号的情形 抽样误差较大;群间变异越大,抽样误差越大 适合抽样总体很大的情况 Poisson分布的概念:Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。
Poisson分布的性质:1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。2.Poisson分布的方差σ2与均数μ相等,即σ2=μ 3.Poisson分布是非对称性的,在μ不大时呈偏态分布,随着μ的增大,迅速接近正态分布。一般来说,当μ=20时,可以认为近似正态分布,Poisson分布资料可按正态分布处理。4.Poisson分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数 最多为k次的概率
(X= 0,1,2,?)
最少为k次的概率
(X= 0,1,2,?)
5.Poisson分布的图形已知μ,就可按公式计算得出X= 0,1,2,?时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可绘出Poisson分布的图形Poisson分布的形状取决于μ的大小。μ值越小,分布越偏,随着μ的增大,分布越趋于对称,当μ=20时,分布接近正态分布,当μ=50时,可以认为Poisson分布呈正态分布N(μ, μ),按正态分布处理。6.Poisson分布是二项分布的极限形式二项分布中,当π很小而n很大,nπ→μ时,二项分布趋于Poisson分布。7. Poisson分布的观察结果有可加性
Poisson分布的应用条件:Poisson分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000人或更多作为单位人群,某些发病率极低的疾病要求更多。
第六章 参数估计 第一节 抽样分布与抽样误差
由个体变异和抽样造成的样本统计量与总体参数的差异,称为抽样误差。
抽样误差不可避免,有两种表现形式:1、样本统计量与总体参数间的差异。2、样本统计量间的差异。 一、样本均数的抽样分布与抽样误差
1、标准误:样本统计量的标准差。 2、均数的标准误:样本均数的标准差。 3、样本均数的抽样分布的特点:(1)各样本均数未必等于总体均数;(2)各样本均数间存在差异;(3)样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;(4)样本均数的变异范围较之原变量的变异范围小;(5)随着样本量的增大,样本均数变异范围逐渐缩小。 4、均数的标准误: σ
X=
?S 均数标准误的估计值: SX= nn 5、样本均数X的总体均数与观察值X的总体均数相同,样本均数X的标准差是X标准差的1/n。 6、非正态分布总体,样本量较大时(n>30),样本均数的分布接近正态分布。
二、样本率的抽样分布与抽样误差
1、率的抽样误差:由于抽样所造成的样本率与总体率之间及样本率之间的差别。 2、若样本量为n,总体率为π,样本率为p,理论 (1)样本率的总体均数等于总体率。即μp=π。 (2)样本率的总体标准差(即率的标准误)σp=
?(1??)n率的标准误的估计值为Sp=
P(1?P) n(3)对于大量重复随机抽样而言,样本率p围绕着总体率π波动,样本量n越大,这种波动越小,当n充分大时,p的分布就近似于均数为π标准差为
?(1??)n的正态分布(n充分大通常为nπ?5和n(1-
π)?5且n?40。
(4)当总体率π=0.5时,样本率p的分布为对称分布。
(5)当样本量n为定值时,总体率π越接近0.5,样本率p近似正态分布的程度就越好。 第二节 总体均数的估计
统计推断:根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特性。统计推断包括参数估计、假设检验。
参数估计:指用样本指标值(统计量)推断总体指标值(参数)。参数估计包括点估计、区间估计。 点估计:用相应样本统计量直接作为其总体参数的估计值。
区间估计:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。 一、总体均数的点估计
1、总体均数的点估计:是直接用随机样本的样本均数X作为总体均数μ的点估计值。
2、点估计方法简单,但未考虑抽样误差。因此,要使得参数估计可信,必须考虑抽样误差,特别是对于小样本。
二、总体均数的区间估计
1、可信区间:总体均数的区间估计是按一定的概率(1-α)用一个区间来估计总体均数,这个区间称作可信度为(1-α)的可信区间,又称置信区间。
2、可信度:预先给定的概率1-α称为可信度或置信度,若无特别说明,一般取双侧95%。
3、可信区间通常由两个数值即可信限/置信限(CL)构成。其中较小的值称可信下限,较大的值称可信上限。
4、总体均数可信区间:
(1)总体标准差σ已知
总体均数的可信度为(1-α)的可信区间为(X-ua/2σ
X,X+ua/2σ
X)=1-α
(2)总体标准差σ未知
总体均数的可信度为(1-α)的可信区间为(X-ta/2,vSX,X+ta/2,vSX)=1-α (3)总体标准差σ未知,但n足够大(n>60)时,t分布近似标准正态分布 总体均数的可信度为(1-α)的可信区间为(X-ua/2SX,X+ua/2SX)
例:若随机抽得某地2002年9名7岁正常发育男孩,测得其身高资料,计算其均数X=121.44 (cm),标准差S=5.75(cm),试估计该地2002年7岁正常发育男孩身高总体均数的95%可信区间。
解:本例n=9,计算样本均数标准误为SX=
Sn=
5.759=1.92(cm)
V=n-1=9-1=8,α取双尾0.05,查t界值表得t0.05/2,8=2.306
(X-tα/2,vSX,X+tα/2,vSX)=(121.44-2.306×1.92,121.44+2.306×1.92) 即该地2002年7岁正常发育男孩身高总体均数的95%可信区间为(117.01,125.87) 三、两总体均数之差的区间估计
1、假定两总体方差相等,两样本样本量、均数、方差分别为n1、n2,X1、X2,S1、S2,有 t=
22( X1?X2)?(?1??2),服从自由度为v=n1+n2-2的t分布,其中:
SX?X1222(n?1)S?(n?1)S111222),合并方差SC 均数之差的标准误SX?X=S(?=1
12n1?n2?2n1n22C 故?1??2的(1-α)可信区间为([ X1?X2]-tα/2,,[ X1?X2]+tα/2,) (n1+n2-2)S(n1+n2-2)SX?XX?X12122S12S2?(当两样本的样本含量均较大时,tα/2,v可用相应的uα/2代替,SX?X可用计算)
12n1n2 2、可信度为95%的可信区间的涵义是:该区间以95%的概率包含了总体均数。 3、可信区间估计的优劣取决于两个要素:准确性、估计精确性。
可信度越接近于1越好;精确性与变量的变异度大小、样本量和1-α取值有关。 请注意:P93页表6-7 总体均数的可信区间与个体值参考值范围的区别 第三节 总体率的估计 一、总体率的点估计
1、总体率的点估计指直接用随机样本的样本率p作为总体率π的点估计值。2总体率的点估计未考虑到样本率的抽样误差。 二、总体率的区间估计:
1、根据样本含量和样本率的大小,总体率的区间估计可采用查表法、正态近似法。
2、查表法:在样本例数较小,且样本率接近1或0,即阳性事件发生率很高或很低时,可按照二项分布原理确定总体率的可信区间。
在n?50时,查附表7(只含X?n/2部分);
X>n/2时,用n-X值查表,所得可信区间为总体阴性率可信区间,再用1减去总体阴性率可信区间,即为总体阳性率可信区间。
3、近态近似法:当n较大,p和1-p均不太小时,如np与n(1-p)均大于5时,样本率p的抽样分布近