第五章 常用概率分布
地80%的男孩身高集中在哪个范围?
据经验,同年龄男孩身高的分布可用一个正态分布N(?,?2)描述。不妨假设该正态总体的??123.02,??4.79。
(1) 首先,计算130cm对应的Z值。由公式(4-16),得
z?130?123.02?1.46
4.79
0.07 0.07 1.46 -1.46
图4-9 例4-11示意图
其次,求该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比,就是求图4-9 正态曲线下Z?1.46的右侧面积。因为曲线下两侧面积对称,故可查附表1,?(?1.46)?0.0721,即该地8岁男孩身高在130cm以上者约占该地8岁男孩总数的7.21%。
(2) 为计算身高在120cm~128cm者占该地8岁男孩总数的百分比:先分别计算120和128所对应的Z值:
120 对应的Z值为
z1?120?X120?123.02???0.63 S4.79128对应的Z值为
z2?128?X128?123.02??1.04 S4.79再查附表1,得?(?0.63)?0.2643。而
?(1.04)?1??(?1.04)?1?0.1492?0.8508
正态曲线下区间(-0.63,1.04)上的面积为
?(1.04)??(?0.63)?0.8508?0.2643?0.5865
所以身高在120cm~128cm者约占该地8岁男孩总数的58.65%。
17
第五章 常用概率分布
(3) 欲求该地80%的8岁男孩身高集中在哪个范围,可以查附表1,标准正态分布曲线下左侧面积为0.10所对应的Z值为-1.28,所以80%的8岁男孩身高集中在X?1.28S区间内,即大约在116.9cm与129.2cm之间。
3. 正态变量的和与差的分布
可以证明,服从正态分布的随机变量X1、X2的和(X1+X2)与差(X1-X2)的分布仍然是正态分布,且有如下性质:
不论X1和X2独立与否, X1、X2的和与差的均数就等于均数的和与差
E(X1±X2)= E(X1)±E(X2);
当X1和X2独立时,X1、X2的和与差的方差都等于方差的和
Var(X1±X2)= Var(X1)+ Var(X2)
请读者想一想,为什么第一个等式右端是加减号, 而第二个等式右端却是加号?
三、正态分布的应用
1. 确定医学参考值范围
医学参考值范围(reference range)是指特定的―正常‖人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。
确定医学考值范围主要有两方面的意义:其一,用于划界、分类,如临床上生理、生化指标常常是临床医生判断某指标正常与异常的参考依据;其二,动态分析,如某个地区不同时期某些重金属元素的正常值可反映环境污染的动态变化或环保效果。例如,2005年,德国联邦环保署(GerFEA)考虑到环保工作取得的成绩,将德国6~12岁儿童血铅、血汞和尿汞的参考值从1996年的“<60μg/l”、“<1.5μg/l”和“<1.4μg/l” 分别调整为“<50μg/l”、“<1.4μg/l”和“<0.7μg/l”。
确定医学参考值范围的方法有两种:
(1)百分位数法 双侧95%医学参考值范围是(P2.5,P97.5),单侧范围是P95
以下(人体有害物质如血铅、发汞等),或P5以上(如肺活量)。该法适用于任何分布类型的资料。
(2)正态分布法 若X服从正态分布,医学参考值范围还可以依正态分
18
第五章 常用概率分布
布的规律计算。因为正态分布变量X在区间??1.96?上取值的概率为0.95,所以正态分布资料双侧医学参考值范围一般按下式作近似估计:
X?1.96S (4-18)
例4-12 调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,X?117.4(g/L),S?10.2(g/L),试估计该地健康女性血红蛋白的95%参考值范围。
因血红蛋白过高、过低均为异常,所以95%医学参考值范围应当是双侧的:
.9(g/l) 上限为 X?1.96S?117.4?1.96?10.2?137下限为 X?1.96S?117.4?1.96?10.2?97.41(g/l)
必须注意,95%医学参考值范围仅仅告诉我们某特定人群中,95%的个体该指标测定值在此范围内,并不能说明凡在此范围内都―正常‖;也不能说明凡不在此范围内都不―正常‖。因此医学参考值范围在临床上只能作为参考。
正态分布法只限于正态分布资料、近似正态分布资料或以一定的方法可以转化为正态分布的资料。例如,某变量观察值经对数变换后可转换成近似正态分布,这时可先求其对数值的参考值范围,再求反对数即为原变量的参考值范围。
确定医学参考值范围必须抽取足够例数的样本,并判定是否应分―层‖确定参考值范围。如果测定值在性别间或年龄组间差别较大,则应分―层‖确定参考值范围。
2. 质量控制图
临床医学、预防医学、卫生管理或医学检验中的诸多指标,当影响某一数量指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。相反,如果除随机误差外,还存在某些影响较大的因素(如环境、设备或人为因素)导致的误差(称为系统性误差),这时指标的波动就不再服从正态分布。利用这一原理,人们可以进行测量过程的质量控制。
质量控制的一个重要工具是控制图。控制图的基本原理就是:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布。控制图共有7条水平线,中心线位于总体均数?处,警戒限位于??2?处,控制限位于
19
第五章 常用概率分布
??3?处,此外还有2条位于???处。如果总体均数和总体标准差未知,也可用样本估计值代替,这时,7条水平线分别位于X、X?S、X?2S和X?3S处。
依时间顺序记录观察数据,在控制图上依次描点。如果发生以下8种情况之一,则有理由认为其数据的波动不仅仅是随机测量误差引起的,可能存在某种非随机的系统性误差。
判断异常的8种情况是:
(1)有一个点距中心线的距离超过3个标准差(位于控制限以外)。 (2)在中心线的一侧连续有9个点。 (3)连续6个点稳定地增加或减少。 (4)连续14个点交替上下。
(5)连续3个点中有两个点距中心线距离超过2个标准差(位于警戒限以外)。
(6)连续5个点中有4个点距中心线距离超过1个标准差
(7)中心线一侧或两侧连续15个点距中心线距离都在1个标准差以内。 (8)中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。
例4-13 运用骨密度体模测量值序列建立质量控制图,对骨密度测量值进行质量控制。 骨密度(BMD)测量值既有随机误差,又常有系统误差,为使测量值客观、真实必须进行质量控制。通常在每天开机后首先对固定在机器内的―体模‖进行测量,将每天的―体模‖测定值点在控制图上,一旦出现以上8种情形之一,便示警,操作者需针对具体问题分析原因并调整到正常状态。图4-10显示了四幅―体模‖测定值的控制图。
910111213141516
12345678
35791113151719212325272931 1
图(a) 图(b)
20