第五章 常用概率分布
135791113151719212325272931
1357911131517192123252729
图(c) 图(d)
图4-10 骨密度测量值质量控制图
3. 二项分布、泊松分布的正态分布近似
二项分布、泊松分布和正态分布之间有着密切的渐近关系。 (1) 二项分布的正态近似
由图4-1和图4-2 我们看到二项分布图取决于?与n,当?接近0.5时,图形是对称的;?离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。理论上可以证明,不管π如何,当n相当大时,只要π不太靠近0或1, 特别是当nπ和n(1-π)都大于5时,二项分布B(n,π)近似正态分布N(n?,n?(1??))。由于二项分布为离散型变量分布,变量只能在正整数处取值,为了借用连续型变量的分布函数计算概率,首先要把概率函数连续化,即把概率图中的?直条‘改成?直方‘,即对任何一个直条以X?k为中心左右各伸展0.5,变为相连的直方(见图4-11),经这一校正P(X?k),P(X?k)和P(k1?X?k2)就可以用正态近似方法计算。
k
k+0.5k-0.5 k
(a)
k-0.5 k (b)
k+0.5(c)
图4-11 二项分布连续性校正和正态近似示意图
(a)概率函数直条图;(b)连续性校正直方图;(c)正态近似图
二项分布累积概率的正态近似计算公式为:
21
第五章 常用概率分布
iin?iP(X?k)??Cnpq??(i?0kk?0.5?n?) (4-19)
n?(1??)k?0.5?n?) (4-20)
n?(1??))??(k1?0.5?n?n?(1??)) (4-21)
iin?iP(X?k)??Cnpq?1??(i?kniin?iP(k1?X?k2)??Cnpq??(i?k1k2k2?0.5?n?n?(1??)式中Φ为标准正态分布的分布函数。
例4-14 现在用正态近似方法解决例4-6留下的问题。某地钩虫感染率为13%,如果随机抽查当地150人,至少有20人感染钩虫的概率有多大?
本例n?150,??0.13,因为n??19.5和n(1??)?130.5,均远大于5,故可以按正态分布作近似计算。
??n??19.5
??n?(1??)?150?0.13?(1?0.13)?4.12
由公式(4-20)得到
P(X?20)?1??(20?0.5?19.5)?1??(0)?0.50
4.12即至少有20人感染钩虫的概率约为50%。与例4.6所得结果接近。
(2) Poisson分布的正态近似
由前面图4-3可以看到Poisson分布当总体均数?值小于5时为偏峰,?愈小分布愈偏,随着?增大,分布趋向对称。理论上可以证明,随着???,Poisson分布也渐近正态分布。一般,当??20时Poisson分布资料可按正态分布处理。和二项分布相同Poisson分布也是离散型变量分布,为了借用连续型变量的分布函数计算概率,也要对概率函数作校正,校正后正态近似计算方法见式(4-22)至(4-24)。
P(X?k)??i?0k?ii!e????(k?0.5???) (4-22)
?P(?X P(X?k)?1?k)?1?k?0.5??( ) (4-23)
?22
第五章 常用概率分布
P(k1?X?k2)??i?k1k2?ii!e????(k2?0.5???)??(k1?0.5???) (4-24)
例4-15 实验显示某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。如果直接用Poisson分布概率公式计算,相当麻烦,但用正态近似方法处理就会简便很多。由公式(5-22)
P(X?400)?1?P(X?400)?1??(400?0.5?360)?1??(2.135)?0.0164
360该放射性物质半小时内发出的脉冲数大于500个的概率为0.0164。
第四节 中英文结果报告
医学参考值范围的报告应包含制订机构、年份、人群(性别、年龄)、项目、双侧还是单侧、确切数值和单位。现以人体液中特定元素浓度的参考值为例报告如下:
人体液中特定元素浓度的分布往往是偏峰的,其相应的参考值一般用一个参考人群浓度分布的95百分位数来定义。 德国联邦环保署(GerFEA)的人群生物监测机构一直致力于环境污染物参考值的建立,污染物参考值通常来自德国环境调查(GerES)结果。 1996年,该组织制定了德国6~12岁儿童参考值。血铅浓度的参考值为60μg/l,血汞浓度为1.5μg/l,尿汞浓度为1.4μg/l。 2005年,根据德国第4次环境调查(GerESIV)资料,该生物监测机构发布了德国6~12岁儿童的参考值,并首次公布了血镉和尿镉的参考值均为0.5mg/l。对下列参考值进行了调整:血铅浓度从60μg/l下降到50μg/l;血汞和尿汞浓度分别从1.5μg/l下降到1.0μg/l和从1.4μg/l下降到0.7μg/l。 The reference value of concentrations of a specific element in a body fluid is defined as the 95th percentile of the distribution of a reference population since the distributions of concentrations are skewed. Reference values for environmental pollutants in the German population are established continuously by the Human Biomonitoring Commission of the German Federal Environmental Agency. The reference values are usually derived from results of the German Environmental Surveys (GerES). The commission put out the reference values for children aged 6–12 years in 1996. The reference values for lead in blood is 60?g/l, for mercury in whole blood 1.5?g/l and for mercury in urine 1.4?g/ml. In 2005, the commission derived reference values for children aged 6~12 years from the fourth German Environmental Surveys (GerESIV). The reference values for cadmium in whole blood (0.5 ?g/l) and for cadmium in urine (0.5 ?g/l) were first confirmed. The following reference values were lowered: the reference values for lead in blood from 60 to 50 ?g/l, for mercury in whole blood from 1.5 to 1.0 ?g/l and for mercury in urine from 1.4 to 0.7 ?g/l.
23
第五章 常用概率分布
第五节 案例讨论
2000年某地艾滋病病毒的感染率为十万分之七,该地10万人口,2001年感染艾滋病病毒的人数为17人,有人说,该地2001年总体上艾滋病病毒感染率与2000年持平。如果是这样的话,该地2001年感染艾滋病病毒的人数为17人这种情况发生的概率为
P(X?17)?e?7717?0.0006 17!因为发生的概率太小了,所以说该地2001年总体上艾滋病病毒感染率与2000年持平的说法是不成立的。
请考虑:该分析是否正确,如果有问题,出在哪里?
第六节 电脑实验
实验4-1 概率及累积概率的计算 完成例4-6、4-7、4-8、4-9、4-10及4-11的计算。(程序文件:D04-01.SAS)
程序4-1 概率及累积概率的计算
行号 01 02 03 04 05 06 07 08 09 10 11 12 13 14 程 序 DATA exam4_6; n=150;prob=0.13;
p11=PROBBNML(prob,n,2); p12=1-PROBBNML (prob,n,1); p13=1-PROBBNML (prob,n,19); PROC PRINT; DATA exam4_7_9; m=6;
P21=PDF('POISSON',3,m); P22=POISSON(m,2); P23=1-POISSON(m,1); PROC PRINT; DATA exam4_8_10; m=1.5; 行号 15 16 17 18 19 20 21 22 23 24 25 26 程 序 P31=PDF('POISSON',2,m); P32=POISSON(m,2); P33=1-POISSON(m,2); PROC PRINT; DATA exam4_11; mean=123.02; std=4.79;
p41=1-CDF('NORMAL',130,mean,std); p42=CDF('NORMAL',128,mean,std)
-CDF('NORMAL',120,mean,std); rangel=mean-PROBIT(0.9)*std; range2=mean+PROBIT(0.9)*std; PROC PRINT; RUN; 程序01-05行完成例4-6计算,p11为至多2名感染的概率,p12为至少2名感染的概率,p13为至少20名感染的概率。06-12行完成例4-7和例4-9计算,p21为菌落数等于3个的概率,p22为菌落数小于等于2个的概率,p23为菌落数大于1个的概率。13-18行完成例4-8和例4-10计算,p31为2人患病的概率,p32为至多2人患病
24