第五章 常用概率分布
P(x) 0.4 0.3 0.2 0.1 0.0
0 2 4 6 8 10 12 14 16 18 20 22 P(x) 0.4 0.3 0.2 0.1 0.0
0 2 4 6 8 10 12 14 16 18 20 22
P(x) 0.4 0.3 0.2 0.1
λ=1
P(x) 0.4 0.3 0.2 0.1
0 2 4 6 8 10 12 14 16 18 20 22
λ=3
0.0
0 2 4 6 8 10 12 14 16 18 20 22
λ=6 λ=10
图4-3 ?取不同值时的Poisson分布图
由图4-3可以看到Poisson分布是非对称的,总体参数?值越小,分布越偏;随着?增大,分布趋向对称。
Poisson分布有以下特性:
(1)Poisson分布的总体均数与总体方差相等,均为?。
(2)Poisson分布的观察结果有可加性。若从总体均数为?1的Poisson分布总体中随机抽出一份样本,其中稀有事件的发生次数为X1,再独立地从总体均数为?2的Poisson分布总体中随机抽出另一份样本,其中稀有事件的发生次数为X2,则它们的合计发生数T?X1?X2也服从Poisson分布,总体均数为?1??2。
上述性质还可以推广到多个Poisson分布的情形。例如,从同一水源独立地取水样5次,每次1 ml,进行细菌培养,每次水样中的菌落数分别为Xi(观察单位是1 ml),i?1,?5,均服从Poisson分布,分别记为P(?i),i?1,?,5,那么把5份水样混合,其合计菌落数?Xi也服从Poisson分布(观察单位是5 ml),且总体参数为?1??2????5,记为P(?1??2????5)。
9
第五章 常用概率分布
医学研究中常利用Poisosn分布的可加性,将小的观察单位合并,来增大发生次数X,以便分析。
三、Poisson分布的应用
1. 概率估计
例4-7 以往实验显示某地100cm2的培养皿中平均菌落数为6个。今用100cm2的培养皿进行培养,试估计该培养皿菌落数等于3个的概率。
这里的观察单位是培养皿(100cm2),理论上一个培养皿中菌落数等于3个的概率为
63P(X?3)?e?0.089
3!?6例4-8 如果某地居民脑血管疾病的患病率为150/10万,那么调查该地1000名居民中有2人患脑血管疾病的概率有多大?
脑血管疾病的患病率为? = 150/10万,调查人数n=1000,则患病人数X是服从n=1000、患病率为150/10万的二项分布。因为150/10万较小,n=1000较大,将1000名居民看作是一个观察单位,因此,平均1000人中有1000×150/10万=1.5个患者。因此,也可以认为1000名居民中患脑血管疾病的人数近似地服从Poisson分布,且
λ=n?=1000×0.0015=1.5
依公式(4-12),得
P(X?2)?e?1.51.52?0.251 2!即调查该地1000名居民中有2人患脑血管疾病的概率为25.1%。
2. 累积概率计算
与二项分布问题相同,Poisson分布也经常需要计算累积概率。如果稀有事件发生次数的总体均数为λ,那么该稀有事件发生次数至多为k次的概率为
P(X?k)??P(X)??eX?0X?0kk???XX! (4-13)
发生次数至少为k次的概率为
10
第五章 常用概率分布
P(X?k)?1?P(X?k?1) (4-14)
例4-9 续例4-7。试估计每一个培养皿中菌落数小于3个的概率,大于1个的概率。
该培养皿菌落数小于3个的概率为
e?66Xe?660e?661e?662P(X?3)??P(X)?????X!0!1!2! X?0X?0 ?0.06222菌落数大于1个的概率为
e?660e?661P(X?1)?1?P(X?0)?P(X?1)?1??0!1!
?0.983 例4-10 续例4-8。试估计1000名居民中至多有2人患脑血管疾病的概率有多大?至少有3人患脑血管疾病的概率有多大?
至多有2人患脑血管疾病的概率为
e?1.51.5Xe?1.51.50e?1.51.51e?1.51.52P(X?2)??P(X)??????0.809
X!0!1!2!X?0X?022至少有3人患脑血管疾病的概率为
P(X?3)?1?P(X?2)?1?0.809?0.191
Poisson分布与二项分布的一个前提条件是事件发生的概率?不变,每个事件发生与否是相互独立的。若n次观察互不独立、发生概率不等,则不能看作二项分布。例如,在某社区,传染性疾病首例出现后便成为传染源,会增加该社区后续病例出现的概率,且随着病例数的增加,其他易感人群感染的概率增加,因此病例数的分布不能看作是二项分布或Poisson分布;又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细菌数不能认为服从Poisson分布;再如,钉螺在繁殖期成窝状散布,单位面积中钉螺数的观察结果不是独立的,因此也不能认为服从Poisson分布。
11
第五章 常用概率分布
第三节 正态分布 一、
正态分布的概念
正态分布是统计学的基本理论分布之一,也是自然界最常见的分布之一。例如,测量的误差、人体许多生化指标的测量值等等都可认为近似服从正态分布。此外,正态分布具有许多良好的性质,许多理论分布在一定条件下可用正态分布近似,一些重要的分布可由正态分布导出。可以说正态分布是统计学中最重要的分布。正态分布具有什么样的特征呢? 请观察表4-3和表4-4两个频率分布表。
表4-3 某地正常成人心率(次/分)
的频率分布表
组段 45—
50— 55— 60— 65— 70— 75— 80— 85— 90— 95— 100—105 合计
频数 1 5 12 13 26 31 24 15 9 7 5 2 150
频率(%) 0.67 3.33 8.00 8.67 17.33 20.67 16.00 10.00 6.00 4.67 3.33 1.33 100.00
组段 1.228― 1.234― 1.240― 1.246― 1.252― 1.258― 1.264― 1.270― 1.276― 1.282― 1.258― 合计
表4-4 (体模)骨密度测量值(mg/cm3)
的频率分布表
频数 2 2 7 17 25 37 25 16 4 1 37 175
频率(%) 1.14 1.14 4.00 9.71 14.29 21.14 14.29 9.14 2.29 0.57 21.14 100.00
表4-3与表4-4的共同点是中间频数最多,两边频数渐少且近似对称。为直观起见将表4-4 数据绘成一幅特殊的直方图(图4-4),以各长方形面积代表各组段的频率,直条的高度相当于频率除以组距,称之为频率密度,这张图称为频率密度图。可以设想,如果观察人数逐渐增多,组段不断分细,直条的宽度将逐渐变窄,其顶端逐渐接近于一条光滑的曲线,这条曲线称为频率密度曲线。该曲线表现为中间高,两边低,左右对称,好似钟形,颇象数学上的正态分布曲线。因为频率的总和等于1,故横轴上曲线下的面积恒等于1。
12