第二节 统计量及其分布
第二教学单元
导言:本教学单元主要介绍统计量的概念、常见统计量。掌握统计量、样本均值、样本方差和样本标准差,并会计算样本均值、样本方差。 一.统计量
样本是总体的代表和反映,但样本的信息较为分散,需要加工和提炼,一种有效的方法是构造样本的函数,不同的样本函数反映总体的不同特征。这种样本的函数便是统计量。它把样本中所含的(某一方面)的信息集中起来,它是完全由样本决定的量。
定义1.2.1 (X1,X2,L,Xn)是取自某总体X的一个容量为n的样本,假如样本函数
T?T?X1,L,Xn?中不含任何未知参数,则称T为统计量。
上述定义中规定“不含任何未知参数”是强调在获得了样本的观察值(x1,x2,L,xn)后,代入统计量立即可以算得统计量的观察值T?x??T?x1,L,xn?。统计量实际上也是一个随机变量,它是一个随机向量的函数。
例1 设总体X服从N(μ,?),其中μ与?为未知参数,从该总体获得的一个样本
2
2
X??1n为(X1,X2,L,Xn) ,则X??Xi为统计量,但X??, 都不是统计量,因为它
?ni?1们含有未知参数μ与?。
统计量具有两重性:
(1) 统计量T?T?X1,L,Xn?本身是随机向量,它有确定的概率分布-抽样分布。
2(2). 经过一次抽样后, T?T?X1,L,Xn?又是由样本值(x1,x2,L,xn)确定的一个统计值。
二、常见的统计量
1、样本均值
1n 设(X1,X2,L,Xn)是取自某总体的一个样本,它的算术平均数X??Xi称为样本均
ni?1
值。当获得了样本观测值x1,x2,L,xn后代入上式,可求得样本均值的观测值,亦简称样本
1n均值:x??xi. 它反映了总体均值的信息。
ni?1 由于样本中的数据有大有小,而样本均值x总处于样本的中间位置,小于x的数据的偏差xi?x是负的,大于x的数据的偏差xi?x是正的,此种偏差之和恒为零,这是因为
??x?x???x?nx?0. 而总体分布数学期望EX也是位于取值范围的中心位置,且
iii?1i?1nnE(X-EX)=0,因此只要样本是简单随机样本,那么样本均值是反映总体分布数学期望所在位置信息的一个统计量,如果总体数学期望是μ ,那么样本均值X将是μ的一个很好的估计量。
在样本(X1,X2,L,Xn)来自正态分布N(μ,?) 场合,其样本均值X的分布为 N(μ,?/n)。现在我们来讨论当样本(X1,X2,L,Xn)来自非正态总体时,其样本均值X的分布。
定理1.2.1 设(X1,X2,L,Xn)是从某总体随机抽取的一个样本,该总体的分布未知(可能是离散的,也可能是连续的,可能是均匀分布,也可能是偏态分布等),但知其均值为μ,方差为?(有限且不为0),则当样本量n充分大时,样本均值X近似服从正态分布 N(μ,?/n),其均值仍为μ,方差为?/n。 证:由中心极限定理可知。
这一定理表明,无论总体分布是什么,只要样本容量n充分大,则样本均值X总可近似看作正态分布。譬如,样本(X1,X2,L,Xn)来自b(1,p),0?p?1,则总体期望为p,方差为p(1-p),那么当n充分大时,样本均值X近似服从正态分布N?p, 2、样本方差和样本标准差
设(X1,X2,L,Xn)是取自某一总体的样本,它关于样本均值的平均偏差平方和
21n2称为样本标准差。 S???Xi?X?称为样本方差,其算术根Sn?Snni?12n21n在n不大时,常用S?作为样本方差(也称修正方差),其算术根X?X???in?1i?122
2
2
22??p(1?p)??. n?
S?S2称为样本标准差。
当把观察值代入后可得样本方差与样本标准差的观察值:
1n22 s???xi?x?, sn?sn,
ni?12n或
1n2 s??xi?x?, s?s2, ?n?1i?12在实际应用中也简称它们为样本方差和样本标准差。 在后面我们主要用的是S与2S2,但在涉及到具体数值计算时一般用小写的s2与
s2。
样本方差与样本标准差反映了数据取值分散与集中的程度,即反映了总体方差与标准差的信息。 3、样本的高阶矩
1nk 设(X1,X2,L,Xn)是来自某总体的一个样本,则称Ak??Xi, k?1,2L为样本的k
ni?11nk阶原点矩,称Bk??(Xi?X), k?1,2L为样本的k阶中心矩。它们分别反映了总体
ni?12k阶原点矩?k与k阶中心矩?k的信息。特别A1?X, B1?0, B2?Sn.
定理1.2.2 如果F(x)存在4阶矩,则对样本方差,有
222n?122?4??22(??42?)2??3?4ES??, DSn??? 23nnnn
2n2其中?2??2, ?4分别是总体的二阶和四阶中心矩。 定理1.2.3 如果总体存在2k阶矩,则对于样本的k阶原点矩,有
EAk??k, DAk??2k??n2k .
1n?1nk?1nk证明:EAk?E??Xi???EXi??EXk??k ,
ni?1?ni?1?ni?11n?1nk?1nkDAk?D??Xi??2?DXi?2?DXkni?1?ni?1?ni?11?2n??ni?1EX2k??EXk2???EX2k??EXnk2?
2k??2k??n. 4 样本偏度与样本峰度
322设(X1,X2,L,Xn)是来自某总体的一个样本,则称SK?B3/B为样本偏度。SK反映了总体分布密度曲线的对称性信息。当SK>0时,分布的形状是右尾长,称为正偏的;当SK<0时,分布的形状是左尾长,称为负偏的。称KU?B4?3为样本峰度。KU反映了总2B2体分布密度曲线在其峰值附近的陡峭程度的信息。当KU>0时,分布密度曲线在其峰附近比正态分布来得陡;当KU<0时,比正态分布来得平坦。
例2 某厂实行计件工资制,为及时了解情况,随机抽取30名工人,调查各自在一周内加工的零件数,然后按规定算出每名工人的周工资如下:(单位:元)
156 134 160 141 159 141 161 157 171 155 149 144 169 138 168 147 153 156 125 156 135 156 151 155 146 155 157 198 161 151 这便是一个容量为30的样本观察值,其样本均值为:
x?16?15?301?3L4??161??15,1 153.5它反映了该厂工人周工资的一般水平。易得
??x?x???xii?1i?1n2n2i?nx2,由于
?xi?1302i?1562?1342?L?1512?712155,所以样本方差为
s2?1712155?30?153.52??182.3278,样本标准差为 ?30?1s?182.3278?13.50.