第三节 协方差及相关系数
对多维随机变量, 随机变量的数学期望和方差只反映了各自的平均值与偏离程度,并没能反映随机变量之间的关系. 本节将要讨论的协方差是反映随机变量之间依赖关系的一个数字特征.
一、 协方差的定义
定义 设(X,Y)为二维随机向量,若E{[X?E(X)][Y?E(Y)]}存在, 则称其为随机变量X和
.Y的协方差, 记为Cov(X,Y),即 cov(X,Y)?E{[X?E(X)][Y?E(Y)]}按定义, 若(X,Y)为离散型随机向量,其概率分布为P{X?xi,Y?yj}?pij则cov(X,Y)??E{[xi?E(X)][yj?E(Y)]}.
i,j(i,j?1,2,?)
若(X,Y)为连续型随机向量, 其概率分布为f(x,y), 则cov(X,Y)???????????E{[x?E(X)][y?E(Y)]}f(x,y)dxdy.
此外, 利用数学期望的性质, 易将协方差的计算化简. cov(X,Y)?E{[X?E(X)][Y?E(Y)]}?E(XY)?E(X)E(Y)?E(Y)E(X)?E(X)E(Y) ?E(XY)?E(X)E(Y).特别地, 当X与Y独立时, 有 cov(X,Y)?0.
二、协方差的性质
1. 协方差的基本性质(1)cov(X,X)?D(X);(2)cov(X,Y)?cov(Y,X);
(3)cov(aX,bY)?abcov(X,Y),其中a,b是常数;(4)cov(C,X)?0,C为任意常数; (5)cov(X1?X2,Y)?cov(X1,Y)?cov(X2,Y).(6) 若X与Y相互独立时,则cov(X,Y)?0.
2. 随机变量和的方差与协方差的关系D(X?Y)?D(X)?D(Y)?2cov(X,Y), 特别地, 若X与Y相互独立时, 则D(X?Y)?D(X)?D(Y). 三、相关系数的定义与性质
定义 设(X,Y)为二维随机变量,D(X)?0,D(Y)?0,称?XY?Cov(X,Y)
D(X)D(Y)为随机变量X和Y的相关系数.有时也记?XY为?. 特别地,当?XY?0时,称X与Y不相关. 相关系数的性质
1. |?XY|?1; 2. 若X和Y相互独立, 则?XY?0.
3. 若DX?0,DY?0,则|?XY|?1当且仅当存在常数a,b(a?0). 使P{Y?aX?b}?1, 而且当
a?0时, ?XY?1;当a?0时, ?XY??1.
注: 相关系数?XY刻画了随机变量Y与X之间的“线性相关”程度.|?XY|的值越接近1, Y与X的线性相关程度越高;|?XY|的值越近于0, Y与Y的线性相关程度越弱.当|?XY|?1时, Y与X
33
的变化可完全由X的线性函数给出.当?XY?0时, Y与X之间不是线性关系.
4. 设e?E[Y?(aX?b)]2,称为用aX?b来近似Y的均方误差,则有下列结论. 设D(X)?0,D(Y)?0, 则a0?cov(X,Y),b0?E(Y)?a0E(X)使均方误差达到最小.
D(X)注:可用均方误差e来衡量以aX?b近似表示Y的好坏程度, e值越小表示aX?b与Y的近似
2). 从这个侧面也程度越好.且知最佳的线性近似为a0X?b.而其余均方误差e?D(Y)(1??XY能说明. |?XY|越接近1, e越小.反之, |?XY|越近于0, e就越大.Y与X的线性相关性越小. 四、矩的概念
定义 设X和Y为随机变量, k,l为正整数, 称
E(Xk) 为k阶原点矩(简称k阶矩阵); E([X?E(X)]k) 为k阶中心矩; E(|X|k) 为k阶绝对原点矩; E(|X?E(X)|k) 为k阶绝对中心矩;
E(XkYl) 为X和Y的k?l阶混合矩;
E{[X?E(X)]k[Y?E(Y)]l} 为X和Y的k?l阶混合中心矩;
注: 由定义可见:(1) X的数学期望E(X)是X的一阶原点矩;(2) X的方差D(X)是X的二阶中心矩;(3)协方差Cov(X,Y)是X和Y的二阶混合中心矩.
五、协方差矩阵
c11?E{[X1?E(X1)]2},c22?E{[X2?E(X2)]2},将二维随机变量(X1,X2)的四个二阶中心矩c12?E{[X1?E(X1)][X2?E(X2)]},c21?E{[X2?E(X2)][X1?E(X1)]}.?c11c12??排成矩阵的形式: ?,称此矩阵为(X1,X2)的协方差矩阵. ?c?(对称矩阵)c?2122?
类似定义n维随机变量(X1,X2,?,Xn)的协方差矩阵.
若cij?Cov(Xi,Xj)?E{[Xi?E(Xi)][Xj?E(Xj)]}i,j?1,2,?,n都存在, 则称 ?c11c12?c?cC??2122????c?n1cn2?c1n???c2n?为(X1,X2,?,Xn)的协方差矩阵.
?????cnn??六、n维正态分布的概率密度
七、n维正态分布的几个重要性质
例题选讲: 协方差的性质
34
例1已知离散型随机向量(X,Y)的概率分布为,求cov(X,Y). Y 0 2 ?1X 0 0.1 0.2 0 1 2 0.3 0.15 0.05 0.1 0 0.1 ?8xy,0?x?y?1例2设连续型随机变量(X,Y)的密度函数为f(x,y)??
0,其它?求cov(X,Y)和D(X?Y). 相关系数的性质
例3设(X,Y)的分布律为 X Y 1 4 P{X?xi} ?2 0 1/4 1/4 ?1 1/4 0 1/4 1 1/4 0 1/4 2 0 1/4 1/4 P{Y?yj} 1/2 1/2 1 易知E(X)?0,E(Y)?5/2,E(XY)?0,于是?XY?0,X,Y不相关. 这表示X,Y不存在事实上, X和Y具有关系: Y?X,Y的值完全可由X的值所确定.
例4设?服从[??,?]上的均匀分布, X?sin?, Y?cos?判断X与Y是否不相关, 是否独立.
例5已知X~N(1,32), Y~N(0,42), 且X与Y的相关系数?XY??.设Z?D(Z)及?XZ.
例6 设(X,Y)服从二维正态分布, 它的概率密度为 f(x,y)?12??1?2??(x??1)2(x??1)(y??2)(y??2)2????1?exp??2?????, 2222?1?2?2??1????1???2(1??)??2线性关系. 但P{X??2,Y?1}?0?P{X??2}P{Y?1},知X,Y不是相互独立的.
12XY?, 求32求X和Y的相关系数?XY.
注:在上一章中我们已经得到:若(X,Y)服从二维正态分布, 那么X和Y相互独立的充要条件为??0. 现在知道?即为X与Y的相关系数, 故有下列结论:
“若(X,Y)服从二维正态分布,则X与Y相互独, 立当且仅当X与Y不相关”.
n维正态分布的几个重要性质
例7设随机变量X和Y相互独立且X~N(1,2),. Y~N(0,1),试求Z?2X?Y?3的概率密度.
思考题
1. 对不同品牌的某种机械的两项重要指标评分, 设X1,X2为其所得分数(百分制). 已知
E(X1)?68.9,E(X2)?72.8; D(X1)?81,D(X2)?49; cov(X1,X2)?36.现以服从正态
97X1?X2来决定各参评品牌的名次.(1) 试求Y的分布; (2) 如果对综1616合分Y?85的品牌颁奖, 试计算获奖者的百分比. 分布的综合分Y?
35
第五章 大数定理与中心极限定理
概率论与数理统计是研究随机现象统计规律性的学科. 而随机现象的规律性在相同的条件下进行大量重复试验时会呈现某种稳定性. 例如, 大量的抛掷硬币的随机试验中, 正面出现频率; 在大量文字资料中, 字母使用频率; 工厂大量生产某种产品过程中, 产品的废品率等. 一般地, 要从随机现象中去寻求事件内在的必然规律, 就要研究大量随机现象的问题.
在生产实践中, 人们还认识到大量试验数据、测量数据的算术平均值也具有稳定性. 这种稳定性就是我们将要讨论的大数定律的客观背景. 在这一节中,我们将介绍有关随机变量序列的最基本的两类极限定理----大数定理和中心极限定理. 【教学目的与要求】
通过学习,使学生了解契比雪夫不等式的定义并会利用其进行概率估算,了解契比雪夫定理和伯努里定理。理解独立同分布的中心极限定理和棣莫佛-拉普拉斯定理,并会利用其进行概率近似计算。 【教学重点】
契比雪夫不等式与中心极限定理。 【教学难点】
中心极限定理 【计划课时】3 【教学内容】
一、依概率收敛
与微积分学中的收敛性的概念类似, 在概率论中, 我们要考虑随机变量序列的收敛性. 定义1 设X1,X2,?,Xn,?是一个随机变量序列, a为一个常数,若对于任意给定的正数?,有 limP{|Xn?a|??}?1, 则称序列X1,X2,?,Xn,?依概率收敛于a,
n??PPP??a(n??).定理1 设Xn???a,Yn???b,又设函数g(x,y)在点(a,b)连续, 记为Xn?P??g(a,b). 则g(Xn,Yn)?二、切比雪夫不等式
定理2设随机变量X有期望E(X)??和方差D(X)??2,则对于任给??0, 有
?2P{|X??|??}?2.上述不等式称切比雪夫不等式.
?注:(i) 由切比雪夫不等式可以看出,若?2越小, 则事件{|X?E(X)|??}的概率越大, 即, 随机变量X集中在期望附近的可能性越大. 由此可见方差刻划了随机变量取值的离散程度.
(ii) 当方差已知时,切比雪夫不等式给出了X与它的期望的偏差不小于?的概率的估计
?2式.如取??3?, 则有P{|X?E(X)|?3?}??0.111.故对任给的分布,只要期望和方差?2
29?存在, 则随机变量X取值偏离E(X)超过3?的概率小于0.111.
三、大数定理
1.切比雪夫大数定律
36