见的总体. 现设总体X服从正态分布N(?,?2), 则其样本密度由下式给出:
n2??1?1n?1?xi??????2???f(x1,x2,?,xn)??exp????exp?(x??)???. i??????2?2????i?1?2??2?i?1?????2??例3 (讲义例3) 称总体X为伯努利总体,如果它服从以p(0?p?1)为参数的伯努利分布,
n1即
P{X?1}?p,P{X?0}?1?p.
不难算出其样本(X1,X2,?,Xn)的概率分布为
P{X1?i1,X2?i2,?,Xn?in}?psn(1?p)sn
其中ik(1?k?1)取1或0, 而sn?i1?i2???in, 它恰等于样本中取值为1的分量之总数. 服从伯努利分布的总体也具有较广泛的应用背景. 概率p通常可视为某实际总体(如工厂的某一批产品)中具有一特征(如废品)的个体所占的比例, 称为比率. 从总体中随机抽取一个个体, 可视为一个随机试验, 试验结果可用一随机变量X来刻画: 若恰好抽到具有该特征的个体, 记X?1; 否则, 记X?0. 这样, X便服从以p为参数的伯努利分布. 通常参数p是未知的, 故需通过抽样对其作统计推断.
例4 设总体X服从参数为?的泊松分布, X1,X2,?,Xn为其样本, 则样本的概率分布为
nn?ik???snP{X1?i1,X2?i2,?,Xn?in}??P{X?ik}??e?e?n?,
i1!,i2!,?,in!k?1k?1ik!其中ik(1?k?n)取非负整数, 而sn?i1?i2???in.
例5 (讲义例4) 从某厂生产的某种零件中随机抽取120个, 测得其质量(单位: g) 如表
5.1所示. 列出分组表, 并作频率直方图.
表5-1-1
200202203208216206222213209219216203197208206209206208202203206213218207208202194203213211193213208208204206204206208209213203206207196201208207213208210208211211214220211203216221211218206210211209190217216201218219214204216214211201221211219208212208209211199213209208208214211214209221207212214202211207216199211218214206204207
220205206216213206206207200198
例6 (讲义例5) 随机观察总体X,得到一个容量为10的样本值:
3.2, 2.5, ?2, 2.5, 0, 3, 2, 2.5, 2, 4
求X经验分布函数.
例7 (讲义例6) 某厂实行计件工资制, 为及时了解情况,随机抽取30名工人, 调查各自在一周内加工的零件数, 然后按规定算出每名工人的周工资如下: (单位:元)
156 134 160 141 159 141 161 157 171 155 149 144 169 138 168 147 153 156 125 156 135 156 151 155 146 155 157 198 161 151
这便是一个容量为30的样本观察值, 其样本均值为:
1(156?134???161?151)?153.5 30它反映了该厂工人周工资的一般水平. 试计算其样本方差与样本标准差.
x?
例8 (讲义例7) (分组样本均值的近似计算) 如果在例7中收集得到的样本观察值用分组样本形式给出(见表4.2.1), 此时样本均值可用下面方法近似计算: 以xi表示第i个组的组中值(即区间的中点), ni为第i组的频率, i?1,2,,k,?ni?n, 则
i?1k1kx??nixi (4.2.3)
ni?1表4.2.1 某厂30名工人周平均工资额 周工资额区间工人数ni(120,130](130,140](140,150](150,160](160,170](170,180](180,190](190,200]合计13614410130组中值xi125135145155165175185195nixi125405870217066017501954600
则本例中
x?4600?153.33 30这与例4.2.2的完全样本结果差不多.
注:在样本容量较大时,给出分组样本是常用的一种方法,虽然会损失一些信息,但对总体数学期望给出的信息还是十分接近的.
例9 (讲义例8) 设我们获得了如下三个样本:
样本A: 3,4,5,6,7;样本B: 1,3,5,7,9; 样本C: 1,5,9
如果将它们画在数轴上(图5-1-3), 明显可见它们的“分散”程度是不同的: 样本A在这三个样本中比较密集, 而样本C比较分散.
这一直觉可以用样本方差来表示. 这三个样本的均值都是5, 即xA?xB?xC?5, 而样
本容量nA?5,nB?5,nC?3, 从而它们的样本方差分别为:
1102sA?[(3?5)2?(4?5)2?(5?5)2?(6?5)2?(7?5)2]??2.55?14
140222222sB?[(1?5)?(3?5)?(5?5)?(7?5)?(9?5)]??105?141322sC?[(1?5)2?(5?5)2?(9?5)2??16.
3?12222由此可见sC,这与直觉是一致的, 它们反映了取值的分散程度. 由于样本方差?sB?sA的量纲与样品的量纲不一致, 故常用样本标准差表示分散程度, 这里有
sA?1.58,sB?3.16,sC?4, 同样有sC?sB?sA.
由于样本方差(或样本标准差)很好地反映了总体方差(或标准差)的信息, 因此若当方差
?2未知时, 常用S2去估计, 而总体标准差?常用样本标准差S去估计.
课堂练习
1. 一组工人完成某一装配工序所需的时间(分)分别如下:
35 38 44 33 44 43 48 40 45 30 45 32 42 39 49 37 45 37 36 42 35 41 45 46 34 30 43 37 44 49 36 46 32 36 37 37 45 36 46 42 38 43 34 38 47 35 29 41 40 41
(1) 将上述数据整理成组距为3的频数表,第一组以27为起点; (2) 绘制样本直方图; (3) 写出经验分布函数.
第二节 常用统计分布
取得总体的样本后, 通常是借助样本的统计量对未知的总体分布进行推断, 为此须进一步确定相应的统计量所服从的分布, 除在概率论中所提到的常用分布外, 本节还要介绍几个在统计学中常用的统计分布:
?2分布 t分布 F分布
内容分布图示
★ 引言 ★ 分位数
★ ?2分布 ★ t分布 ★ F分布
★ 内容小结 ★ 习题5-2
★ 返回
★ 例1 ★ 例2 ★ 例3 ★ 例4
★ 课堂练习
内容要点:
一、分位数
设随机变量X的分布函数为F(x), 对给定的实数?(0???1), 若实数F?满足不等式
P{X?F?}??,
则称F?为随机变量X的分布的水平?的上侧分位数.
若实数T?满足不等式
P{|X|?T?}??,
则称T?为随机变量X的分布的水平?的双侧分位数.
二、?2分布
定义1 设X1,X2,?,Xn是取自总体N(0,1)的样本, 则称统计量
22?2?X12?X2???Xn (1)
服从自由度为n的?2分布,记为?2~?2(n).
这里, 自由度是指(1)式右端所包含的独立变量的个数.
?2(n)分布的概率密度:
n1??1?x122?f(x)??2n/2?(n/2)xe,x?0.
?0,x?0?其中?(?)为Gamma函数,f(x)的图形如5-2-3.
1.?2分布的数学期望与方差:
若?2~?2(n), 则 E(?2)?n,D(?2)?2n. 2.?2分布的可加性:
22222若?12~?2(m),?2相互独立,则 ?1~?2(n),且?1??2~?2(m?n). ,?23.?2分布的分位数:
2设?2~??(n),对给定的实数?(0???1), 称满足条件
2P{?2???(n)}????2??(n)f(x)dx??
2的点??(n)为?2(n)分布的水平?的上侧分位数. 简称为上侧?分位数. 对不同的?与n, 分位数的值已经编制成表供查用(参见附表).
三、t分布
定义2 设X~N(0,1),Y~?2(n),且X与Y相互独立,则称
Xt?
Y/n服从自由度为n的t分布, 记为t~t(n),
t(n)分布的概率密度:
f(x)??[(n?1)/2]?x??1??n??n?(n/2)???2?n?12,???t???
t分布具有如下性质:
1.f(x)的图形关于y轴对称,且limf(x)?0;
x??2.当n充分大时,t分布近似于标准正态分布; 3.t分布的分位数:
设T~t?(n),对给定的实数?(0???1), 称满足条件
P{T?t?(n)}??t1??(n)??t?(n).
??t?(n)f(x)dx??
的点t?(n)为t(n)分布的水平?的上侧分位数. 由密度函数f(x)的对称性,可得
类似地,我们可以给出t分布的双侧分位数
P{|T|?t?/2(n)}???t?/2(n)??f(x)dx????t?/2(n)f(x)dx??,
显然有
2对不同的?与n, t分布的双侧分位数可从附表查得.
P{T?t?/2(n)}??;P{T??t?/2(n)}??2.
四、F分布
定义3 设X~?2(m),Y~?2(n),且X与Y相互独立, 则称