第五章 常用概率分布
图4-4 体模―骨密度‖测量值的分布接近正态分布示意图(频率密度=频率/组距)
正态曲线(normal curve)是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。该曲线的函数表达式f(x)称为正态分布密度函数,
f(x)?1e?2??(x??)22?2 (4-15)
其中,?为总体均数,?为总体标准差。
正态概率密度曲线的位置与形状具有如下特点: (1)关于x=?对称。
(2)在x=μ处取得该概率密度函数的最大值,在x????处有拐点。 (3)曲线下面积为1。
(4)?决定曲线在横轴上的位置,?增大,曲线沿横轴向右移;反之,?减小,曲线沿横轴向左移。
(5)?决定曲线的形状,当?恒定时,?越大,数据越分散,曲线越―矮 胖‖;?越小, 数据越集中,曲线越―瘦高‖。见图4-5。
13
第五章 常用概率分布
-6-5-4μ1 -3-2-1μ2 012μ3 3456 a. 标准差相同、均数不同(?1??2??3)的三条正态曲线
?1 ?2 ?3 -3-2-10123 b.均数相同、标准差不同(?1??2??3)的三条正态曲线
图4-5 正态曲线位置、形状与?、?关系示意图
习惯上用N(?,?2)表示均数为?、标准差为?的正态分布。
很多医学现象服从正态分布或近似正态分布。例如,同性别、同年龄儿童的身高,同性别健康成人的红细胞数、血红蛋白含量、脉搏数等。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用均不太大,那么这个指标服从正态分布。如实验中的随机误差,通常表现为正态分布。
二、 正态概率密度曲线下的面积
1. 一个共同的规律
14
第五章 常用概率分布
-3-2-10 12368.27% 95.44% 图4-6 正态分布曲线下的面积分布
图4-6显示,任何正态分布N(?,?2), 其概率密度曲线下的面积具有一个共同的规律:
如果用其标准差作为衡量单位,则以均数为中心,正负1个标准差内,即(?-?,
?+?)区间内,正态分布曲线下的面积为68.27%;正负2个标准差内,即(?-2?, ?+2?)区间内,面积为95.44%;正负3个标准差,即(?-3?, ?+3?)区间内,正态分布的面积为99.74%,不论均数和标准差是多大。这是由正态分布的性质所决定的。
2. Z变换与标准正态分布
对任意一个服从正态分布N(?,?2)的随机变量,可作如下的标准化变换,也称Z变换,
Z?X??? (4-16)
经此变换得到的变量Z的密度函数为
f(z)?12?e?z22 ,???z??? (4-17)
变换后的 Z值仍然服从正态分布,且其总体均数为0、总体标准差为1。我们称此正态分布为标准正态分布(standard normal distribution),用N(0,1)表示。统计学家编制了标准正态分布曲线下面积分布表(附表1),因为正态分布两边对称,所以只给出Z取负值的情况。表内所列数据表示Z取不同值时Z值左侧标准正态曲线下面积,记作?(z)。?(z)称为标准正态分布的分布函数。可见,任一正态分布曲线下的面积分布规律可通过式(5-16)变换后,与标准正态分布曲线下的面积对应。
15
第五章 常用概率分布
图4-7 标准正态分布的分布函数示意图
例4-10 已知X服从均数为?、标准差为?的正态分布,试估计: (1)X取值在区间??1.96?内的概率;(2)X取值在区间??2.58?内的概率。 求X取值在相应区间内的概率,首先要确定区间两端点所对应的Z值。由公式(4-16)
z1?(??1.96?)????
??1.96 ?1.96
z2?(??1.96?)??查附表1,?(?1.96)?0.025。 因为曲线下两侧面积对称,区间(1.96,?)上的曲线下面积也是0.025,故Z取值于(-1.96,1.96)的概率为
1?2?0.025?0.95,即X取值在区间??1.96?内的概率为0.95。
0.025 0.025 -1.96
1.96
图4-8 1.96在标准正态分布中的意义
同理,我们可以求出X取值在区间??2.58?上的概率为0.99。由于对正态分布而言,1.96和2.58这两个数具有特殊意义,工作中经常用到,希望读者记住。
例4-11 某地1986年120名8岁男孩身高均数为X=123.02cm ,标准差为S=4.79cm,试估计:(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高在120cm~128cm者占该地8岁男孩总数的百分比;(3)该
16