概率论论文 下载本文

浅谈正态分布

摘要:正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。它概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。它是一种最常见的连续性随机变量的概率分布,其概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。其曲线呈钟形,因此人们又经常称之为钟形曲线。 关键词:高斯分布、概率分布、钟形曲线 一.正态分布的由来

正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。[1]

拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数也非常具有数学的美感。其标准化后的概率密度函数

更加的简洁漂亮,两个最重要的数学常量π,e都出现在了公式之中。在我个人的审美之中,它也属于top-N的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序正态分布不仅在概率统计中发挥着重大

作用而且在医学、物理学、生物学等领域中都发挥着重大作用。

二.高斯的推导

高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。

“误差分布导出的极大似然估计 = 算术平均值”

设真值为θ,而x1,?,xn为n次独立测量值,每次测量的误差为ei=xi?θ,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ)

为求极大似然估计,令

dlogL(θ)/dθ=0.

整理后可以得到

∑f′(xi?θ)/f(xi?θ)=0.

令g(x)=f′(x)/f(x),由上式可以得到

∑g(xi?θ)=0.

由于高斯假设极大似然估计的解就是算术平均xˉ,把解带入上式,可以得到

∑g(xi?xˉ)=0. (6)

在上式中取n=2,有

g(x1?xˉ)+g(x2?xˉ)=0.

由于此时有x1?xˉ=?(x2?xˉ),并且x1,x2是任意的,由此得到:g(?x)=?g(x).再在(6)式中取n=m+1,并且要求x1=?=xm=?x,且xm+1=mx,则有xˉ=0,并且

∑g(xi?xˉ)=mg(?x)+g(mx).

所以得到g(mx)=mg(x).而满足上式的唯一的连续函数就是g(x)=cx,从而进一步可以求解出

f(x)=Mecx2.

由于f(x)是概率分布函数,把f(x)正规化一下就得到正态分布密度函数N(0,σ2).[2] 三 .正太分布的特征 (1)正太分布的曲线特征

正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。 1、集中性:正态曲线的高峰位于正中央,即均数所在的位置。

2、对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标

准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。 5、u变换:为了便于描述和应用,常将正态变量作数据转换。 (2)正态曲线下面积分布

1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数

的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。

2.几个重要的面积比例 轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。 (3)正态分布函数特征

若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号 ~ 。其中μ、σ2 是两个不确定常数,是正态分布的参数,不同的μ、不同的σ2对应不同的正态分布。

(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。

(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。 也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

正态分布还有更多令人着迷的数学性质,

? ? ? ? ? ? ?

二项分布B(n,p)在n很大逼近正态分布N(np,np(1?p)) 泊松分布Poisson(λ)在λ较大时逼近正态分布N(λ,λ)

χ2(n)在n很大的时候接近正态分布N(n,2n) t分布在n很大时接近标准正态分布N(0,1)

正态分布的共轭分布还是正态分布

几乎所有的极大似然估计在样本量n增大的时候都趋近于正态分布

Cramer分解定理(之前介绍过):如果X,Y是独立的随机变量,且S=X+Y是正态分布,那么X,Y也是正态分布

?

如果X,Y独立且满足正态分布N(μ,σ2),那么X+Y,X?Y独立且同分布,而正态分布是唯

一满足这一性质的概率分布

?

对于两个正态分布X,Y,如果X,Y不相关则意味着X,Y独立,而正态分布是唯一满足这一性质的概率分布[3]

四.正太分布的应用

我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一。一个重要的原因是正态分布的最大熵性质。在很多时候我们并不知道数据的真实分布是什么,但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息量。因此按照最大熵原理,我们应该选择在给定的知识的限制下,选择熵最大的概率分布,而这就恰好是正态分布。因此按照最大熵的原理,即便数据的真实分布不是正态分布,由于我们对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,那这时候正态分布就是最佳的选择。正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

五.正太分布的意义

正态分布启示我们,要用整体的观点来看事物。“系统的整体观念或总体观念是系统概念的精髓。” 正态分布曲线及面积分布图非常清晰的展示了重点,那就是基区占68.27%,是主体,要重点抓,此外95%,99%则展示了正态的全面性。事物和现象纷繁复杂,在千头万绪中不抓住主要矛盾,就会陷入无限琐碎之中。事物发展大都是渐进的和累积的,走渐进发展的道路是事物发展的常态。[4]由于我们时间和精力的相对有限性,出于效率的追求,我们更应该抓住重点。在正态分布中,基区占了主体和重点。如果我们结合20/80法则,我们更可以大胆的把正区也可以看做是重点。用整体观来看世界,就是要立足在基区,放眼负区和正区。要看到主要方面,还要看到次要方面 六;结尾

算术平均Xˉ=(X1+X2+?+Xn)/N,极其简单而朴素的一个式子,被人们使用了千百年,在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。中心极限定理在1773年被棣莫弗偶然邂逅的时候,它只是一粒普通的沙子,两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断地被概率学家们精雕细琢,逐渐发展成为现代概率论的璀璨

明珠。而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影,几百年来以无穷的魅力吸引着科学家和数学家们。

正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。

【参考文献】

【1】 吴江霞,正态分布进入统计学的历史演化 【2】 概率论与数理统计 清华大学出版社 龚光鲁 【3】 周勇、朱硕.线性代数:复旦大学出版社;2010.

【4】 Marvin Zelen and Norman C. Severo (1964年). Probability Functions. Chapter 26 of

Handbook of Mathematical Functions with Formulas.