第五章 数理统计的基础知识
5.1
数理统计的基本概念
习题一
已知总体X服从[0,λ]上的均匀分布(λ未知), X1,X2,?,Xn为X的样本,则().
(A)1n∑i=1nXi-λ2是一个统计量; (B)1n∑i=1nXi-E(X)是一个统计量; (C)X1+X2是一个统计量; (D)1n∑i=1nXi2-D(X)是一个统计量.
解答: 应选(C).
由统计量的定义:样本的任一不含总体分布未知参数的函数称为该样本的统计量.(A)(B)(D)中均含未知参数.
习题2
观察一个连续型随机变量,抽到100株“豫农一号”玉米的穗位(单位:cm), 得到如下表中所列的数据. 按区间[70,80),[80,90),?,[150,160), 将100个数据分成9个组,列出分组数据计表(包括频率和累积频率), 并画出频率累积的直方图. 解答: 分组数据统计表
组序号 组限 组中值 组频率 组频率% 累计频率% 组序号 组限 组中值 组频率 组频率% 累计频率% 1 2 3 4 5 70~80~90~100~110105161661 110~120115262667 8075333 90859912 10095131325 6 7 8 9 120~130125202087 130~1401357794 140~1501454498 150~16015522100 频率直方图见图(a),累积频率直方图见图(b). 习题3 测得20个毛坯重量(单位:g),列成如下简表: 毛坯重量 185187192195200202205206 频数 11111211 毛坯重量 207208210214215216218227 频数 21112121 将其按区间[183.5,192.5),?,[219.5,228.5)组,列出分组统计表,并画出频率直方图. 解答: 分组统计表见表 组序号 组限 组中值 组频数 组频率/% 12345 183.5,~192.5192.5,~201.5201.5,~210.5210.5,~219.5219.5,~228.518819720621522432861151040305 频率直方图见下图 习题4 某地区抽样调查200个居民户的月人均收入,得如下统计资料: 月人均收入(百元) 5-66-77-88-99-1010-1111-12 合计 户数 18357624191414 200 求样本容量n,样本均值Xˉ,样本方差S2. 解答: 对于抽到的每个居民户调查均收入,可见n=200. 这里,没有给出原始数据,而是给出了整理过的资料(频率分布), 我们首先计算各组的“组中值”,然后计算Xˉ和S2的近似值: 月人均收入(百元) 5-66-77-88-99-1010-1111-12 合计 组中值ak 户数fk 5.56.57.58.59.510.511.5 18357624191414 - 200 Xˉ=1n∑kakfk=1200(5.5×18+?+11.5×14)=7.945, S2≈1n-1∑k(ak-Xˉ)2fk=1n-1∑kak2fk-Xˉ2 =1199(5.52×18+?+11.52×14)-7.9452 ≈66.0402-63.123025=2.917175. 习题5 设总体X服从二项分布B(10,3100),X1,X2,?,Xn为来自总体的简单随机样本, Xˉ=1n∑i=1nXi与Sn2=1n∑i=1n(Xi-Xˉ)2
分别表示样本均值和样本二阶中心矩,试求E(Xˉ),E(S2). 解答:
由X~B(10,3100), 得
E(X)=10×3100=310,D(X)=10×3100×97100=2911000,
所以
E(Xˉ)=E(X)=310,E(S2)=n-1nD(X)=291(n-1)1000n.
习题6
设某商店100天销售电视机的情况有如下统计资料
日售出台数k 2 3 4 5 6 合计 天数fk 20 30 10 25 15 100 求样本容量n,经验分布函数Fn(x). 解答: (1)样本容量n=100; (2)经验分布函数 Fn(x)={0,x<20.20,2≤x<30.50,3≤x<40.60,4≤x<50.85,5≤x<61,x≥6. 习题7 设总体X的分布函数为F(x), 概率密度为f(x),X1,X2,?,Xn为来自总体X的一个样本,记 X(1)=min1≤i≤n(Xi),X(n)=max1≤i≤n(Xi), 试求X(1)和X(n) 各自的分布函数和概率密度. 解答: 设X(1)的分布函数和概率密度分别为F1(x)和f1(x), X(n)的分布函数和概率密度分别为Fn(x)和fn(x), 则 Fn(X)=P{X(n)≤x}=P{X1≤x,?,X(n)≤x} =P{X1≤x}P{X2≤x}?P{Xn≤x}=[F(x)]n, fn(x)=F′n(x)=n[F(x)]n-1f(x), F1(x)=P{X(1)≤x}=1-P{X(1)>x}=1-P{X1>x,X2>x,?,Xn>x} =1-P{X1>x}P{X2>x}?P{Xn>x} =1-[1-P{X1≤x}][1-P{X2≤x}]?[1-P{Xn≤x}] =1-[1-F(x)]n, F′1(x)=f1(x)=n[1-F(x)]n-1f(x). 习题8 设总体X服从指数分布e(λ),X1,X2是容量为2的样本,求X(1),X(2)的概率密度. 解答: f(x)={λe-λx,x>00,其它, F(x)={1-e-λx,x>00,x≥0,
X(2)的概率密度为
f(2)(x)=2F(x)f(x)={2λe-λx(1-e-λx),x>00,其它,
又X(1)的概率密度为
f(1)(x)=2[1-F(x)]f(x)={2λe-2λx,x>00,其它.
习题9
设电子元件的寿命时间X(单位:h)服从参数λ=0.0015的指数分布,今独立测试n=6元件,记录它们的失效时间,求:
(1)没有元件在800h之前失效的概率; (2)没有元件最后超过3000h的概率.
解答:
(1)总体X的概率密度f(x)={(0.0015)e-0.0015x,x>00,其它,
分布函数F(x)={1-e-0.0015x,x>00,其它,
{没有元件在800h前失效}={最小顺序统计量X(1)>800}, 有
P{X(1)>800}=[P{X>800}]6=[1-F(800)]6
=exp(-0.0015×800×6)=exp(-7.2)≈0.000747.
(2){没有元件最后超过3000h}={最大顺序统计量X(6)<3000}
P{X(6)<3000}=[P{X<3000}]6=[F(3000)]6 =[1-exp{-0.0015×3000}]6=[1-exp{-4.5}]6 ≈0.93517.
习题10
设总体X任意,期望为μ,方差为σ2, 若至少要以95%的概率保证∣Xˉ-μ∣<0.1σ, 问样本容量n应取多大? 解答:
因当n很大时,Xˉ-N(μ,σ2n), 于是
P{∣Xˉ-μ∣<0.1σ}=P{μ-0.1σ ≈Φ(0.1σσ/n)-Φ(-0.1σσ/n)=2Φ(0.1n)-1≥0.95, 则Φ(0.1n)≥0.975, 查表得Φ(1.96)=0.975, 因Φ(x)非减,故0.1n≥1.96,n≥384.16, 故样本容量至少取385才能满足要求. 5.2 常用统计分布 习题1 对于给定的正数a(0 因为标准正态分布和t分布的密度函数图形都有是关于y轴对称的,而χ2分布的密度大于等于零,所以(A)和(C)是对的.(B)是错的. 对于F分布,若F~F(n1,n2), 则 1-a=P{F>F1-a(n1,n2)}=P{1F<1F1-a(n1,n2)=1-P{1F>1F1-a(n1,n2) 由于1F~F(n2,n1), 所以 P{1F>1F1-a(n1,n2)=P{1F>Fa(n2,n1)=a, 即F1-a(n1,n2)=1Fa(n2,n1). 故(D)也是对的. 习题2(1) 2.设总体X~N(0,1),X1,X2,?,Xn为简单随机样本,问下列各统计量服从什么分布? (1)X1-X2X32+X42; 解答: 因为Xi~N(0,1),i=1,2,?,n, 所以: X1-X2~N(0,2), X1-X22~N(0,1), X32+X42~χ2(2), 故X1-X2X32+X42=(X1-X2)/2X32+X422~t(2). 习题2(2) 2.设总体X~N(0,1),X1,X2,?,Xn为简单随机样本,问下列各统计量服从什么分布? (2)n-1X1X22+X32+?+Xn2; 解答: 因为Xi~N(0,1),∑i=2nXi2~χ2(n-1), 所以 n-1X1X22+X32+?+Xn2=X1∑i=2nXi2/(n-1)~t(n-1). 习题2(3) 2.设总体X~N(0,1),X1,X2,?,Xn为简单随机样本,问下列各统计量服从什么分布? (3)(n3-1)∑i=13Xi2/∑i=4nXi2. 解答: 因为∑i=13Xi2~χ2(3),∑i=4nXi2~χ2(n-3), 所以: (n3-1)∑i=13Xi2/∑i=4nXi2=∑i=13Xi2/3∑i=4nXi2/(n-3)~F(3,n-3). 习题3 设X1,X2,X3,X4是取自正态总体X~N(0,22)的简单随机样本,且 Y=a(X1-2X2)2+b(3X3-4X4)2, 则a=?,b=?时,统计量Y服从χ2分布,其自由度是多少? 解答: 解法一 Y=[a(X1-2X2)]2+[b(3X3-4X4)]2, 令Y1=a(X1-2X2),Y2=b(3X3-4X4), 则 Y=Y12+Y22, 为使Y~χ2(2), 必有Y1~N(0,1),Y2~N(0,1), 因而 E(Y1)=0,D(Y1)=1, E(Y2)=0,D(Y2)=1, 注意到D(X1)=D(X2)=D(X3)=D(X4)=4, 由 D(Y1)=D[a(X1-2X2)]=aD(X1-X2)=a(D(X1)+22D(X2)) =a(4+4×4)=20a=1, D(Y2)=D[b(3X3-4X4)]=bD(3X3-4X4) =b(9D(X3)+16D(X4))=b(4×9+16×4)=100b=1, 分别得a=120,b=1100. 这时Y~χ2(2), 自由度为n=2. 解法二 因Xi~N(0,22)且相互独立,知 X1-2X2=X1+(-2)X2~N(0,20), 3X3-4X4=3X3+(-4)X4~N(0,100), 故X1-2X220~N(0,1),3X3-4X4100~N(0,1), 为使 Y=(X1-2X21/a)2+(3X3-4X41/b)2~χ2(2), 必有X1-2X21/a~N(0,1),3X3-4X41/b~N(0,1), 与上面两个服从标准正态分布的随机变量比较即是 1a=20,1b=100, 即a=120,b=1100. 习题4 设随机变量X和Y 相互独立且都服从正态分布N(0,32). X1,X2,?,X9和Y1,Y2,?,Y9是分别取自总体X和Y的简单随机样本,试证统计量 T=X1+X2+?+X9Y12+Y22+?+Y92 服从自由度为9的t分布. 解答: 首先将Xi,Yi分别除以3, 使之化为标准正态. 令X′i=Xi3,Y′i=Yi3,i=1,2,?,9, 则 X′i~N(0,1),Y′i~N(0,1); 再令X′=X′1+X′2+?+X′9, 则X′~N(0,9),X′3~N(0,1), Y′2=Y′12+Y′22+?+Y′92, Y′2~χ2(9). 因此 T=X1+X2+?+X9Y12+Y22+?+Y92=X1′+X2′+?+X9′Y′12+Y′22+?+Y′92=X′Y′2=X′/ 3Y′2/9~t(9), 注意到X′,Y′2相互独立. 习题5 设总体X~N(0,4), 而X1,X2,?,X15为取自该总体的样本,问随机变量 Y=X12+X22+?+X1022(X112+X122+?+X152) 服从什么分布?参数为多少? 解答: 因为Xi2~N(0,1), 故Xi24~χ2(1),i=1,2,?,15, 而X1,X2,?,X15独立,故 X12+X22+?+X1024~χ2(10),X112+X122+?+X1524~χ2(5), 所以 X12+X22+?+X1024/10X112+X122+?+X1524/5=X12+X22+?+X1022(X112+X122+ ?+X152)=Y 习题6 证明:若随机变量X服从F(n1,n2)的分布,则 (1)Y=1X服从F(n2,n1)分布;(2)并由此证明F1-α(n1,n2)=1Fα(n2,n1). 解答: (1)因随机变量X服从F(n1,n2), 故可设X=U/n1V/n2, 其中U服从χ2(n1),V服从χ2(n2), 且U与V相互独立,设1X=V/n2U/n1, 由F分布之定义知 Y=1x=V/n2U/n1, 服从F(n2,n1). (2)由上侧α分位数和定义知 P{X≥F1-α(n1,n2)}=1-α,P{1X≤1F1-α(n1,n2)=1-α, 即P{Y≤1F1-α(n1,n2)=1-α,1-P{Y>1F1-α(n1,n2)=1-α, 故 P{Y>1F1-α(n1,n2)=α, 而P{Y≥Fα(n2,n1)}=α. 又Y为连续型随机变量,故P{Y≥1F1-α(n1,n2)=α, 从而 Fα(n2,n1)=1F1-α(n1,n2), 即F1-α(n1,n2)=1Fα(n2,n1). 习题7 查表求标准正态分布的上侧分位数:u0.4,u0.2,u0.1与u0.05. 解答: u0.4=0.253, u0.2=0.8416, u0.1=1.28,u0.05=1.65. 习题8 查表求χ2分布的上侧分位数:χ0.952(5), χ0.052(5), χ0.992(10)与χ0.012(10). 解答: 1.145, 11.071, 2.558, 23.209. 习题9 查表求F分布的上侧分位数:F0.95(4,6),F0.975(3,7)与F0.99(5,5). 解答: 0.1623,0.0684,0.0912. 习题10 查表求t分布的下侧分位数:t0.05(3),t0.01(5),t0.10(7)与t0.005(10). 解答: 2.353,3.365,1.415,3.169. 5.3 抽样分布 习题1 已知离散型均匀总体X,其分布律为 X 取大小为n=54的样本,求: 246 pi 1/31/31/3 (1)样本平均数Xˉ落于4.1到4.4之间的概率; (2)样本均值Xˉ超过4.5的概率. 解答: μ=E(X)=13×(2+4+6)=4, σ2=E(X2)-[E(X)]2=13×(22+42+66)-42=83, 所以 μXˉ=μ=4, σXˉ2=σ2n=8/354=481, σXˉ=29. 令Z=Xˉ-42/9, 则n充分大时,Z~近似N(0,1). (1)P{4.1 ≈1-Φ(2.25)=1-0.9878=0.0122. 习题2 设总体X服从正态分布N(10,32),X1,X2,?,X6是它的一组样本,设 Xˉ=16∑i=16Xi. (1)写出Xˉ所服从的分布;(2)求Xˉ>11的概率. 解答: (1)Xˉ~N(10,326), 即Xˉ~N(10,32). (2)P{Xˉ>11}=1-P{Xˉ≤11}=1-Φ(11-1032) ≈1-Φ(0,8165)≈1-Φ(0.82)=0.2061. 习题3 设X1,X2,?,Xn是总体X的样本,Xˉ=1n∑i=1nXi, 分别按总体服从下列指定分布求E(Xˉ),D(Xˉ). (1)X服从0-1分布b(1,p); (2)*X服从二项分布b(m,p); (3)X服从泊松分布P(λ); (4)X服从均匀分布U[a,b]; (5)X服从指数分布e(λ). 解答: (1)由题意,X的分布律为: P{X=k}=Pk(1-P)1-k(k=0,1). E(X)=p,D(X)=p(1-p). 所以 E(Xˉ)=E(1n∑i=1nXi)=1n∑i=1nE(Xi)=1n?np=p, D(Xˉ)=D(1n∑i=1nXi)=1n2∑i=1nD(X1)=1n2?np(1-p)=1np(1-p). (2)由题意,X的分布律为: P{X=k}=CmkPk(1-p)m-k(k=0,1,2,?,m). 同(1)可得 E(Xˉ)=mp,D(Xˉ)=1nmp(1-p). (3)由题意,X的分布律为: P{X=k}=λkk!e-λ(λ>0,k=0,1,2,?). E(X)=λ,D(X)=λ. 同(1)可得 E(Xˉ)=λ,D(Xˉ)=1nλ. (4)由E(X)=a+b2,D(X)=(b-a)212, 同(1)可得 E(Xˉ)=a+b2,D(Xˉ)=(b-a)212n. (5)由E(X)=1λ,D(X)=1λ2, 同(1)可得 D(Xˉ)=1λ,D(Xˉ)=1nλ2. 习题4 某厂生产的搅拌机平均寿命为5年,标准差为1年,假设这些搅拌机的寿命近似服从正态分布,求: (1)容量为9的随机样本平均寿命落在4.4年和5.2年之间的概率; (2)容量为9的随机样本平均寿命小于6年的概率。 解答: (1)由题意知Xˉ~N(5,1n),n=9,则标准化变量 Z=Xˉ-51/9=Xˉ-51/3~N(0,1). 而 P{4.4 (2)P{Xˉ<6}=P{Xˉ-51/3<6-51/3=P{Z<3}≈Φ(3)=0.9987. 习题5 设X1,X2,?,X16及Y1,Y2,?,Y25分别是两个独立总体N(0,16)和N(1,9)的样本,以Xˉ和Yˉ分别表示两个样本均值,求P{∣Xˉ-Yˉ∣>1}. 解答: Xˉ~N(0,1616),Yˉ~N(1,925),Xˉ-Yˉ~N(-1,1+925),即 Xˉ-Yˉ~N(-1,3425). 标准化变量Xˉ-Yˉ,令Z=Xˉ-Yˉ34/5~N(0,1),所以 P{∣Xˉ-Yˉ∣>1}=1-P{∣Xˉ-Yˉ∣≤1}=1-P{-1≤Xˉ-Yˉ≤1} =1-P{0≤Xˉ-Yˉ+134/5≤234/5 ≈1-Φ(1.715)+Φ(0) =1-0.9569+0.5=0.5431. 习题6 假设总体X服从正态分布N(20,32), 样本X1,?,X25来自总体X, 计算 P{∑i=116Xi-∑i=1725Xi≤182. 解答: 令Y1=∑i=116Xi,Y2=∑i=1725Xi, 由于X1,?,X25相互独立同正态分布N(20,32), 因此有 Y1与Y2相互独立,且Y1~N(320,122), Y2~N(180,92), Y1-Y2~N(140,152), P{∑i=116Xi-∑i=1725Xi≤182=P{Y1-Y2≤182}, =P{Y1-Y2-14015≤2.8≈Φ(2.8)=0.997. 习题7 从一正态总体中抽取容量为n=16的样本,假定样本均值与总体均值之差的绝对值大于2的概率为0.01, 试求总体的标准差. 解答: 设总体X~N(μ,σ2), 样本均值为Xˉ,则有 Xˉ-μσ/n=Xˉ-μσ/4~N(0,1). 因为 P{∣Xˉ-μ∣>2}=P{∣Xˉ-μσ/4∣>8σ=2P{Z>8σ=2[1-Φ(8σ)]=0.01, 所以Φ(8σ)=0.995. 查标准正态分布表,得8σ=2.575, 从而σ=82.575=3.11. 习题8 设在总体N(μ,σ2)中抽取一容量为16的样本,这里μ,σ2均为未知. (1)求P{S2/σ2≤2.041}, 其中S2为样本方差; (2)求D(S2). 解答: (1)因为是正态总体,根据正态总体下的统计量分布可知 (n-1)S2σ2~χ2(n-1). 这里n=16, 于是 P{S2/σ2≤2.041}=P(15S2σ2≤15×2.041) =1-P{15S2σ2>30.615(查χ2分布表可得) =1-0.01=0.99. (2)因为(n-1)S2σ2~χ2(n-1), 又知 D((n-1)S2σ2)=2(n-1), 所以 D(S2)=σ4(n-1)2D((n-1)S2σ2)=σ4(n-1)2?2(n-1)=2n-1σ4=215σ4 (因为n=16). 习题9 设总体X~N(μ,16),X1,X2,?,X10为取自该总体的样本,已知P{S2>a}=0.1, 求常数a. 解答: 因为(n-1)S2σ2~χ2(n-1),n=10,σ=4, 所以 P{S2>a}=P{9S216>916a=0.1. 查自由度为9的χ2分布表得,916a=14.684, 所以a≈26.105. 习题10 设X1,X2,?,Xn和Y1,Y2,?,Yn分别取自正态总体 X~N(μ1,σ2)和Y~N(μ2,σ2) 且相互独立,问以下统计量服从什么分布? (1)(n-1)(S12+S22)σ2; (2)n[(Xˉ-Yˉ)-(μ2-σ2)]2S12+S22. 解答: (1)由(n-1)S12σ2~χ2(n-1), (n-1)S22σ2~χ2(n-1), 由χ2(n)的可加性 (n-1)(S12+S22)σ2~χ(2(n-1)). (2)Xˉ-Yˉ~N(μ1-μ2,2σ2n), 标准化后(Xˉ-Yˉ)-(μ1-μ2)σ2n~N(0,1), 故有 [(Xˉ-Yˉ)-(μ1-μ2)]22σ2n~χ2(1), 又由(n-1)(S12+S22)σ2~χ2(2n-2), 注意F分布定义 [(Xˉ-Yˉ)-(μ1-μ2)]21n2σ2/1(n-1)(S12+S22)σ2/2(n-1)=n[(Xˉ-Yˉ)-(μ1-μ2)]2S1 习题11 分别从方差为20和35的正态总体中抽取容量为8和10的两个样本,求第一个样本方差不小于第二个样本方差的两倍的概率. 解答: 用S12和S22分别表示两个样本方差,由定理知 F=S12/σ12S22/σ22=S12/20S22/35=1.75S12S22~F(8-1,10-1)=F(7,9). 又设事件A={S12≥2S22}, 下面求P{S12≥2S22}, 因 P{S12≥2S22}=P{S12S22≥2=P{S12/20S22/35≥2×3520=P{F≥3.5}. 查F分布表得到自由度为n1=7,n2=9的F分布上α分布点Fα(n1=7,n2=9)有如下数值: F0.05(7,9)=3.29,F0.025(7,9)=4.20, 因而F0.05(7,9)=3.29<3.5 0.025≤P{S12≥2S22}≤0.05. 总习题解答 习题1 设总体X服从泊松分布.一个容量为10的样本值为1,2,4,3,3,4,5,6,4,8, 计算样本均值,样本方差和经验分布函数. 解答: 样本的频率分布为xˉ=4,s2=3.6. 经验分布函数为 F10(x)={0,x<11/10,1≤x<22/10,2≤x<34/10,3≤x<47/10,4≤x<58/10,5≤x<69/10,6≤x<71 ,x≥8. 习题2 A厂生产的某产种电器的使用寿命服从指数分布,参数λ未知. 为此,抽查了n件电器,测量其使用寿命,试确定本问题的总体、样本及样本的分布. 解答: 总体是这种电器的使用寿命,其概率密度为 f(x)={λe-λx,x>00,x≤0(λ未知), 样本X1,X2,?,Xn是n件某种电器的使用寿命,抽到的n件电器的使用寿命是样本的一组观察值.样本X1,X2,?,Xn相互独立,来自同一总体X, 所以样本的联合密度为 f(x1,x2,?,xn)={λne-λ(x1+x2+?+xn),x1,x2,?,xn>00,其它. 习题3 设总体X在区间[a,b]上服从均匀分布,求: (1)来自X的简单随机样本X1,X2,?,Xn的密度f(x1,x2,?,xn); (2)Y=max{X1,X2,?,Xn}的密度fY(x); Z=min{X1,X2,?,Xn}的密度fZ(x). 解答: (1)X的密度为f(x)={1b-a,x∈(a,b)0,其它, 由于X1,X2,?,Xn独立且与X同分布,所以有 f(x1,x2,?,xn)=∏i=1nf(xi)={1(b-a)n,a≤x1≤?≤xn≤b0,其它. (2)由题设X在[a,b]上服从均匀分布,其分布函数为 F(x)={0,x 由Y=max{X1,X2,?,Xn}及Z=min{X1,X2,?,Xn}分布函数的定义 FY(x)=[F(x)]n, FZ(x)=1-[1-F(x)]n, 于是有 fY(x)=nFn-1(x)f(x)=n(x-a)n-1(b-a)n,x∈[a,b], fZ(x)=n[1-Fn-1(x)]n-1?f(x)=n(b-x)n-1(b-a)n,x∈[a,b]. 习题4 在天平上重复称一重量为a的物品,假设各次称量的结果相互独立,且服从正态分布N(a,0.2). 若以Xˉ表示n次称量结果的算术平均值,求使P{∣Xˉ-a∣<0.1}≥0.95成立的称量次数n的最小值. 解答: 因为Xˉ=1n∑i=1nXi~N(a,(0.2)2n), 所以 Xˉ-a0.2/n~N(0,1), 故 P{∣Xˉ-a∣<0.1}=P{∣Xˉ-a0.2/n∣<0.10.2/n=2Φ(n2)-1≥0.95, 即Φ(n2)≥0.975, 查正态分布表得n2≥1.96, 所以n≥15.37, 即n=16. 习题5 设总体X~N(20,3), 从X中抽取两个样本X1,X2,?,X10和Y1,Y2,?,X15, 求概率P{∣ Xˉ-Yˉ∣>0.3}. 解答: 因为X1,X2,?,X10和Y1,Y2,?,Y15独立同分布,所以 Xˉ~N(20,310), Yˉ~N(20,0.2), 于是Xˉ-Yˉ~N(0,0.5). P{∣Xˉ-Yˉ∣>0.3}=P{∣Xˉ-Yˉ∣/0.5>0.3/0.5} =1-P{∣Xˉ-Yˉ∣/0.5≤0.3/0.5} =2[1-Φ(0.3/0.5)]=2[1-0.6628] =0.6744(查正态分布表). 习题6 设总体X~N(μ,σ2), 假如要以0.9606的概率保证偏差∣Xˉ-μ∣<0.1, 试问:当σ2=0.25时,样本容量n应取多大? 解答: P{∣Xˉ-μ∣<0.1}=0.9606, 即 P{∣Xˉ-μ∣<0.1}=P{∣Xˉ-μ0.25/n∣<0.10.25/n=2Φ(0.1n0.25)-1=0.9606, ?Φ(0.1n0.25)=0.9803?n5=2.06?n≈106. P{∣Xˉ-μ∣<0.1}=0.9606, 即 P{∣Xˉ-μ∣<0.1}=P{∣Xˉ-μ0.25/n∣<0.10.25/n. 习题7 设X1ˉ和X2ˉ分别为来自正态总体N(μ,σ2)的容量为n的两个简单随机样本 X11,X12,?,X1n和X21,X22,?,X2n的均值,试确定n,使两个子样的均值之差超过σ的概率小于0.05. 解答: Xiˉ~N(μ,σ2n)(i=1,2), 且X1ˉ和X2ˉ相互独立,故有 X1ˉ-X2ˉ~N(0,2σ2n), 从而X1ˉ-X2ˉσ/2/n~N(0,1), P(∣X1ˉ-X2ˉ∣>σ)=P{∣X1ˉ-X2ˉ∣σ2/n>n2=2Φ(-n2) =2[1-Φ(n2)]<0.05, 故Φ(n2)>0.975, 查正态分布表n2≥1.96, 所以n>7.68, 即取n=8. 习题8 设总体X~f(x)={∣x∣,∣x∣<10,其它,X1,X2,?,X50为取自X的一个样本,试求: (1) Xˉ的数学期望与方差; (2) S2的数学期望; (3) P{∣Xˉ∣>0.02}. 解答: μ=E(X)=∫-11x∣x∣dx=0, σ2=D(X)=E(X2)-[E(X)]2=E(X2)=∫-11x2∣x∣dx=12. (1) Xˉ=1n∑i=1nXi(n=50) ?E(Xˉ)=E(1n∑i=1nXi)=1n∑i=1nE(Xi)=0,D(Xˉ)=σ2n=12n=1100; (2) E(S2)=[1n-1∑i=1n(Xi-Xˉ)2]=1n-1E[∑i=1n(Xi-Xˉ)2] =1n-1E(∑i=1nXi2-nXˉ2)=1n-1(∑i=1nD(X1)-nD(Xˉ)) =1n-1(n?12-n?12n)=12; (3) P{∣Xˉ∣>0.02}=1-P{∣Xˉ∣≤0.02} =1-P{∣Xˉ-μD(Xˉ)∣≤0.02-μD(Xˉ) =1-P≥{∣X1/10∣≤0.2=2[1-Φ(0.2)]=0.8414. 习题9 从一正态总体中抽取容量为10的样本,设样本均值与总体均值之差的绝对值在4以上的概率为0.02, 求总体的标准差. 解答: 由于Xˉ~N(μ,σ2n), 故有 0.02=P{∣Xˉ-μ∣≥4}=P{∣Xˉ-μσ/n∣≥4σ/n ≈2(1-Φ(4σ/n))≈2(1-Φ(12.65σ)), Φ(12.65σ)=0.99, 即有12.65σ=u0.01=2.33, 解得σ≈5.43. 习题10 设X1,?,Xn是取自总体X的样本,Xˉ,S2分别为样本均值与样本方差,假定μ=E(X),σ2=D(X)均存在,试求E(Xˉ),D(Xˉ),E(S2). 解答: E(Xˉ)=1n∑i=1nE(Xi)=1n∑i=1nE(X)=μ, D(Xˉ)=1n2∑i=1nD(Xi)=1n2∑i=1nD(X)=σ2n, E(S2)=E(1n-1(∑i=1nXi2-nXˉ2))=1n-1(∑i=1nE(Xi2)-nE(Xˉ2)) =1n-1(∑i=1nE(X2)-nE(Xˉ2)) =1n-1(∑i=1n(μ2+σ2)-n(μ2+(σ2n)))=σ2. 注:本题证明了对于任何存在均值μ与方差σ2的总体分布,均有 E(Xˉ)=μ,E(S2)=σ2. 习题11 设总体X服从正态分布N(μ,σ2)(σ>0), 从总体中抽取简单随机样本X1,?,X2n(n≥2), 其样本均值为Xˉ=12n∑i=12nXi, 求统计量Y=∑i=1n(Xi+Xn+i-2Xˉ)2的数学期望. 解答: 注意到Xi+Xn+i相互独立,同分布N(2μ,2σ2), 则它们可认为是取自同一正态总体N(2μ,2σ2)的样本,其样本均值为 1n∑i=1n(Xi+Xn+i)=1n∑i=12nXi=2Xˉ. 如果记Zi=Xi+Xn+i,i=1,?,n, 即Zi(i=1,?,n)是取自N(2μ,2σ2)的样本,且 Yn-1=1n-1∑i=1n(Xi+Xn+i-2Xˉ)2=S2(Z), 则有E(S2(Z))=1n-1E(Y)=2σ2, 所以E(Y)=2(n-1)σ2. 习题12 设有k个正态总体Xi~N(μi,σ2), 从第i个总体中抽取容量为ni的样本Xi1,Xi2,?,Xini, 且各组样本间相互独立,记 Xiˉ=1n∑j=1niXij(i=1,2,?,k),n=n1+n2+?+nk, 求W=1σ2∑i=1k∑j=1ni(Xij-Xiˉ)2的分布. 解答: 因为∑j=1ni(Xij-Xiˉ)2σ2=(ni-1)Si2σ2~χ2(ni-1), 且(ni-1)Si2σ2(i=1,2,?,k)相互独立,故 W=1σ2∑i=1k∑j=1ni(Xij-Xiˉ)2=∑i=1k(ni-1)Si2σ2~χ2(∑i=1k(ni-1)), 而∑i=1k(ni-1)=∑i=1kni-k=n-k, 故 W=1σ2∑i=1k∑j=1ni(Xij-Xiˉ)2~χ2(n-k). 习题13 已知X~t(n), 求证X2~F(1,n). 解答: 设X=U/Yn, 其中U~N(0,1),Y~χ2(n). 且U与Y相互独立,于是, U2~χ2(1), 且U2与Y也相互独立,所以 X2=U2/(Yn). 根据F变量的构成模式知,X2应服从F(1,n)分布. 习题14 设X1,X2,?,X9是取自正态总体X~N(μ,σ2)的样本,且 Y1=16(X1+X2+?+X6), Y2=13(X7+X8+X9), S2=12∑i=79(Xi-Y2)2, 求证Z=2(Y1-Y2)S~t(2). 解答: 易知 Y1=16(X1+X2+?+X6)~N(μ,σ26), Y2=13(X7+X8+?+X9)~N(μ,σ23), 且Y1与Y2独立,故Y1-Y2~N(0,σ22), 又 2S2σ2=∑i=79(Xi-Y2)2/σ2~χ2(2), Y1-Y2与2S2σ2 独立,从而 (Y1-Y2)/σ22S2σ2/2=2(Y1-Y2)S=Z~t(2). 习题15 设X1,?,Xn,Xn+1是取自正态总体X~N(μ,σ2)的样本, Xnˉ=1n∑i=1nXi, Sn=1n-1∑i=1n(Xi-Xnˉ)2, 试确定统计量nn+1?Xn+1-XnˉSn的分布. 解答: 将统计量改写成下列形式: nn+1?Xn+1-XnˉSn=(Xn+1-Xnˉ)/1+1nσ(n-1)Sn2σ2/(n-1) (*) 由于Xn+1与Xi(i=1,?,n)相互独立, Xnˉ=1n∑i=1nXi~N(μ,σ2n), Xn+1~N(μ,σ2), 所以Xn+1-Xnˉ~N(0,(1+1n)σ2), 从而 (Xn+1-Xnˉ)/(1+1nσ)~N(0,1), 注意到Xnˉ与Sn2相互独立,Xn+1也与Sn2相互独立,且 (n-1)Sn2σ2~χ2(n-1), 故由(*)式即得 nn+1?Xn+1-XnˉSn~t(n-1). 习题16 假设X1,X2,?,X9是来自总体X~N(0,22)的简单随机样本,求系数a,b,c, 使 Q=a(X1+X2)2+b(X3+X4+X5)2+c(X6+X7+X8+X9)2 服从χ2分布,并求其自由度. 解答: 由于X1,X2,?,X9相互独立且取自总体X~N(0,22), 由正态分布的线性运算性质有 X1+X2~N(0,8), X3+X4+X5~N(0,12), X6+X7+X8+X9~N(0,16), 于是,由χ2=χ12+?+χk2有 Q=(X1+X2)28+(X3+X4+X5)212+(X6+X7+X8+X9)216~χ2(3), 故a=1/8,b=1/12,c=1/16, 自由度为3. 习题17(1) 17.从总体X~N(μ,σ2)中抽取容量为16的样本. 在下列情况下分别求Xˉ与μ之差的绝对值小于2的概率: (1)已知σ2=25; 解答: 由σ=5,U统计量(Xˉ-μ)/σn~N(0,1), P{∣Xˉ-μ∣<2}=P{∣Xˉ-μ∣/σn<2/516 =P{∣U∣<1.6}=2Φ(1.6)-1=0.8904. 习题17(2) 17.从总体X~N(μ,σ2)中抽取容量为16的样本. 在下列情况下分别求Xˉ与μ之差的绝对值小于2的概率: (2)σ2未知,但s2=20.8. 解答: 由T统计量(Xˉ-μ)/Sn~t(n-1), P{∣Xˉ-μ∣<2}=P{∣Xˉ-μ∣/Sn<2/20.816 =P{∣T∣<1.76}=1-2×0.05=0.90. 习题18(1) 18.设X1,X2,?,X10取自正态总体N(0,0.32), 试求 (1)P{∑i=110Xi2>1.44; 解答: 由∑i=1n(Xi-μ)2σ2~χ2(n)题中μ=0, 因此 P{∑i=110Xi2>1.44=P{∑i=110Xi2(0.3)2>1.44(0.3)2=P{χ2(10)>16}=0.1. 习题19 (1)设总体X具有方差σ12=400, 总体Y具有方差σ22=900, 两总体的均值相等,分别自这两个总体取容量为400的样本,设两样本独立,分别记样本均值为Xˉ,Y,ˉ 试利用切比雪夫不等式估计k, 使得P{∣Xˉ-Yˉ∣ (2)设在(1)中总体X和Y均为正态变量,求k. 解答: (1)由题设 E(Xˉ-Yˉ)=E(Xˉ)-E(Yˉ)=0, D(Xˉ-Yˉ)=D(Xˉ)+D(Yˉ)=400400+900400=134(由两样本的独立性). 由切比雪夫不等式 P{∣Xˉ-Yˉ∣ 按题意应有1-1k2×134=0.99, 解得k=18.028. (2)由题设X,Y均为正态变量,故有 Xˉ-Yˉ~N(0,134). 因此 P{∣Xˉ-Yˉ∣ Φ(k13/4)≥0.995=Φ(2.58),k13/4≥2.58,k≥4.651. 习题20 假设随机变量F服从分布F(5,10), 求λ的值使其满足P{F≥λ}=0.95. 解答: 一般书中给出的F分布表,给出P{F≥λ}=α的α值只有α=0.01,α=0.05等几个较小的值,而现α=0.95, 不能直接查F表得到λ, 但是注意到P{F≥λ}=0.95, 并且 P{F≤λ}=P{F-1≤λ-1}=0.05, 而F-1~F(10,5), 因此可查表得 1λ=F0.05(10,5)=4.74, λ≈0.21. 习题21 设X1,X2,?,Xn是总体X~N(μ,σ2)的一个样本,证明: E[∑i=1n(Xi-Xˉ)2]2=(n2-1)σ4. 解答: 因为 χ2=∑i=1n(Xi-Xˉ)2/σ2~χ2(n-1),E(χ2)=n-1, D(χ2)=2(n-1), 所以 E[∑i=1n(Xi-Xˉ)2]2=σ4E[∑i=1n(Xi-Xˉ)2/σ2]2 =σ4E[χ2]2=σ4[D(χ2)+[E(χ2)]2] =σ4[2(n-1)+(n-1)2]=(n2-1)σ4. 第六章 参数估计 6.1 点估计问题概述 习题1 总体X在区间[0,θ]上均匀分布,X1,X2,?,Xn是它的样本,则下列估计量θ是θ的一致估计是(). (A)θ=Xn; (B)θ=2Xn; (C)θ=Xˉ=1n∑i=1nXi; (D)θ=Max{X1,X2,?,Xn}. 解答: 应选(D). 由一致估计的定义,对任意?>0, P(∣Max{X1,X2,?,Xn}-θ∣) =P(-?+θ FX(x)={0,x<0xθ,0≤x≤θ1,x>θ, 及 F(x)=FMax{X1,X2,?,Xn}(x)=FX1(x)FX2(x)?FXn(x), 所以 F(?+θ)=1, F(-?+θ)=P(Max{X1,X2,?,Xn}<-?+θ)=(1-xθ)n, 故 P(∣Max{X1,X2,?,Xn}-θ∣)=1-(1-xθ)n→1(n→+∞). 习题2 设σ是总体X的标准差,X1,X2,?,Xn是它的样本,则样本标准差S是总体标准差σ的(). (A)矩估计量; (B)最大似然估计量; (C)无偏估计量; (D)相合估计量. 解答: 应选(D). 因为,总体标准差σ的矩估计量和最大似然估计量都是未修正的样本标准差;样本方差是总体方差的无偏估计,但是样本标准差不是总体标准差的无偏估计.可见,样本标准差S是总体标准差σ的相合估计量. 习题3 设总体X的数学期望为μ,X1,X2,?,Xn是来自X的样本,a1,a2,?,an是任意常数,验证(∑i=1naiXi)/∑i=1nai (∑i=1nai≠0)是μ的无偏估计量. 解答: E(X)=μ, E(∑i=1naiXi∑i=1nai)=1∑i=1nai?∑i=1naiE(Xi) (E(Xi)=E(X)=μ) =μ∑i=1nai∑i=1n=μ, 综上所证,可知∑i=1naiXi∑i=1nai是μ的无偏估计量. 习题4 设θ是参数θ的无偏估计,且有D(θ)>0, 试证θ2=(θ)2不是θ2的无偏估计. 解答: 因为D(θ)=E(θ2)-[E(θ)]2, 所以 E(θ2)=D(θ)+[E(θ)]2=θ2+D(θ)>θ2, 故(θ)2不是θ2的无偏估计. 习题5 设X1,X2,?,Xn是来自参数为λ的泊松分布的简单随机样本,试求λ2的无偏估计量. 解答: 因X服从参数为λ的泊松分布,故 D(X)=λ, E(X2)=D(X)+[E(X)]2=λ+λ2=E(X)+λ2, 于是E(X2)-E(X)=λ2, 即E(X2-X)=λ2. 用样本矩A2=1n∑i=1nXi2,A1=Xˉ代替相应的总体矩E(X2),E(X), 便得λ2的无偏估计量 λ2=A2-A1=1n∑i=1nXi2-Xˉ. 习题6 设X1,X2,?,Xn为来自参数为n,p的二项分布总体,试求p2的无偏估计量. 解答: 因总体X~b(n,p), 故 E(X)=np, E(X2)=D(X)+[E(X)]2=np(1-p)+n2p2 =np+n(n-1)p2=E(X)+n(n-1)p2, E(X2)-E(X)n(-1)=E[1n(n-1)(X2-X)]=p2, 于是,用样本矩A2,A1分别代替相应的总体矩E(X2),E(X),便得p2的无偏估计量 p2=A2-A1n(n-1)=1n2(n-1)∑i=1n(Xi2-Xi). 习题7 设总体X服从均值为θ的指数分布,其概率密度为 f(x;θ)={1θe-xθ,x>00,x≤0, 其中参数θ>0未知. 又设X1,X2,?,Xn是来自该总体的样本,试证:Xˉ和n(min(X1,X2,?,Xn))都是θ的无偏估计量,并比较哪个更有效. 解答: 因为E(X)=θ, 而E(Xˉ)=E(X), 所以E(Xˉ)=θ, Xˉ是θ的无偏估计量.设 Z=min(X1,X2,?,Xn), 因为 FX(x)={0,x≤01-e-xθ,x>0, FZ(x)=1-[1-FX(x)]n={1-e-nxθ,x>00,x≤0, 所以fZ(x)={nθe-nxθ,x>00,x≤0, 这是参数为nθ的指数分布,故知E(Z)=θn, 而 E(nZ)=E[n(min(X1,X2,?,Xn)]=θ, 所以nZ也是θ的无偏估计.现比较它们的方差大小. 由于D(X)=θ2, 故D(Xˉ)=θ2n. 又由于D(Z)=(θn)2, 故有 D(nZ)=n2D(Z)=n2?θ2n2=θ2. 当n>1时,D(nZ)>D(Xˉ), 故Xˉ较nZ有效. 习题8 设总体X服从正态分布N(m,1),X1,X2是总体X的子样,试验证 m1=23X1+13X2, m2=14X1+34X2, m3=12X1+12X2, 都是m的无偏估计量;并问哪一个估计量的方差最小? 解答: 因为X服从N(m,1), 有 E(Xi)=m,D(Xi)=1(i=1,2), 得 E(m1)=E(23X1+13X2)=23E(X1)+13E(X2)=23m+13m=m, D(m1)=D(23X1+13X2)=49D(X1)+19D(X2)=49+19=59, 同理可得:E(m2)=m,D(m2)=58, E(m3)=m,D(m3)=12. 所以,m1,m2,m3都是m的无偏估计量,并且在m1,m2,m3中,以m3的方差为最小. 习题9 设有k台仪器. 已知用第i台仪器测量时,测定值总体的标准差为σi(i=1,2,?,k), 用这些仪器独立地对某一物理量θ各观察一次,分别得到X1,X2,?,Xk. 设仪器都没有系统误差,即E(Xi)=θ(i=1,2,?,k), 问a1,a2,?,ak应取何值,方能使用θ=∑i=1kaiXi估计θ时,θ是无偏的,并且D(θ)最小? 解答: 因为E(Xi)=θ(i=1,2,?,k), 故 E(θ)=E(∑i=1kaiXi)=∑i=1kaiE(Xi)=θ∑i=1kai, 欲使E(θ)=θ, 则要∑i=1kai=1. 因此,当∑i=1kai=1时,θ=∑i=1kaiXi为θ的无偏估计, D(θ)=∑i=1kai2σi2, 要在∑i=1kai=1的条件下D(θ)最小,采用拉格朗日乘数法. 令 L(a1,a2,?,ak)=D(θ)+λ(1-∑i=1kai)=∑i=1kai2σi2+λ(1-∑i=1kai), {?L?ai=0,i=1,2,?,k∑i=1kai=1, 即2aiσi2-λ=0,ai=λ2i2; 又因∑i=1kai=1, 所以λ∑i=1k12σi2=1, 记∑i=1k1σi2=1σ02, 所以λ=2σ02, 于是 ai=σ02σi2 (i=1,2,?,k), 故当ai=σ02σi2(i=1,2,?,k)时,θ=∑i=1kaiXi是θ的无偏估计,且方差最小. 习题6.2 点估计的常用方法 习题1 设X1,X2,?,Xn为总体的一个样本,x1,x2,?,xn为一相应的样本值,求下述各总体的密度函数或分布律中的未知参数的矩估计量和估计值及最大似然估计量. (1)f(x)={θcθx-(θ+1),x>c0,其它, 其中c>0为已知,θ>1,θ为未知参数. (2)f(x)={θxθ-1,0≤x≤10,其它, 其中θ>0,θ为未知参数. (3)P{X=x}=(mx)px(1-p)m-x, 其中x=0,1,2,?,m,0 解答: (1)E(X)=∫c+∞x?θcθx-(θ+1)dx=θcθ∫c+∞x-θdx=θcθ-1,解出 θ=E(X)E(X)-c, 令Xˉ=E(X),于是θ=XˉXˉ-c为矩估计量,θ的矩估计值为θ=xˉxˉ-c,其中xˉ=1n∑i=1nxi. 另外,似然函数为 L(θ)=∏i=1nf(xi;θ)=θncnθ(∏i=1nxi)-(θ+1),xi>c, 对数似然函数为 lnL(θ)=nlnθ+nθlnc-(θ+1)∑i=1nlnxi, 对lnL(θ)求导,并令其为零,得 dlnL(θ)dθ=nθ+nlnc-∑i=1nlnxi=0, 解方程得θ=n∑i=1nlnxi-nlnc,故参数的最大似然估计量为 θ=n∑i=1nlnXi-nlnc. (2)E(X)=∫01x?θxθ-1dx=θθ+1,以Xˉ作为E(X)的矩估计, 则θ的矩估计由Xˉ=θθ+1解出,得 θ=(Xˉ1-Xˉ)2, θ的矩估计值为θ=(xˉ1-xˉ)2,其中xˉ=1n∑i=1nxi为样本均值的观测值. 另外,似然函数为 L(θ)=∏i=1nf(xi;θ)=θn/2(∏i=1nxi)θ-1,0≤xi≤1, 对数似然函数为 lnL(θ)=n2lnθ+(θ-1)∑i=1nlnxi, 对lnL(θ)求导,并令其为零,得 dlnL(θ)dθ=n2θ+12θ∑i=1nlnxi=0, 解方程得θ=(-n∑i=1nlnxi)2,故参数的最大似然估计量为 θ=(n∑i=1nlnXi)2. (3)X~b(m,p),E(X)=mp,以Xˉ作为E(X)的矩估计,即Xˉ=E(X),则参数p的矩估计为 p=1mXˉ=1m?1n∑i=1nXi, p的矩估计值为p=1mxˉ=1m?1n∑i=1nxi. 另外,似然函数为 L(θ)=∏i=1nf(xi;θ)=(∏i=1nCmxi)p∑i=1nxi(1-p)∑i=1n(m-xi),xi=0,1,?,m, 对数似然函数为 lnL(θ)=∑i=1nlnCmxi+(∑i=1nxi)lnp+(∑i=1n(m-xi))ln(1-p), 对lnL(θ)求导,并令其为零,得 dlnL(θ)dθ=1p∑i=1nxi-11-p∑i=1n(m-xi)=0, 解方程得p=1mn∑i=1nxi,故参数的最大似然估计量为 p=1mn∑i=1nXi=1mXˉ. 习题2 设总体X服从均匀分布U[0,θ],它的密度函数为 f(x;θ)={1θ,0≤x≤θ0,其它, (1)求未知参数θ的矩估计量; (2)当样本观察值为0.3,0.8,0.27,0.35,0.62,0.55时,求θ的矩估计值. 解答: (1)因为 E(X)=∫-∞+∞xf(x;θ)dx=1θ∫0θxdx=θ2, 令E(X)=1n∑i=1nXi, 即θ2=Xˉ, 所以θ=2Xˉ. (2)由所给样本的观察值算得 xˉ=16∑i=16xi=16(0.3+0.8+0.27+0.35+0.62+0.55)=0.4817, 所以θ=2xˉ=0.9634. 习题3 设总体X以等概率1θ取值1,2,?,θ, 求未知参数θ的矩估计量. 解答: 由 E(X)=1×1θ+2×1θ+?+θ×1θ=1+θ2=1n∑i=1nXi=Xˉ, 得θ的矩估计为θ=2Xˉ-1. 习题4 一批产品中含有废品,从中随机地抽取60件,发现废品4件,试用矩估计法估计这批产品的废品率. 解答: 设p为抽得废品的概率,1-p为抽得正品的概率(放回抽取). 为了估计p,引入随机变量 Xi={1,第i次抽取到的是废品0,第i次抽取到的是正品, 于是P{Xi=1}=p,P{Xi=0}=1-p=q, 其中i=1,2,?,60,且E(Xi)=p, 故对于样本X1,X2,?,X60的一个观测值x1,x2,?,x60, 由矩估计法得p的估计值为 p=160∑i=160xi=460=115, 即这批产品的废品率为115. 习题5 设总体X具有分布律 X 1 2 3 pi θ2 2θ(1-θ) (1-θ)2 其中θ(0<θ<1)为未知参数. 已知取得了样本值x1=1,x2=2,x3=1, 试求θ的矩估计值和最大似然估计值. 解答: E(X)=1×θ2+2×2θ(1-θ)+3×(1-θ)2=3-2θ, xˉ=1/3×(1+2+1)=4/3. 因为E(X)=Xˉ, 所以θ=(3-xˉ)/2=5/6为矩估计值, L(θ)=∏i=13P{Xi=xi}=P{X1=1}P{X2=2}P{X3=1} =θ4?2θ?(1-θ)=2θ5(1-θ), lnL(θ)=ln2+5lnθ+ln(1-θ), 对θ求导,并令导数为零 dlnLdθ=5θ-11-θ=0, 得θL=56. 习题6 (1)设X1,X2,?,Xn来自总体X的一个样本, 且X~π(λ), 求P{X=0}的最大似然估计. (2)某铁路局证实一个扳道员五年内所引起的严重事故的次数服从泊松分布,求一个扳道员在五年内未引起严重事故的概率 p的最大似然估计,使用下面122个观察值统计情况. 下表中,r表示一扳道员某五年中引起严重事故的次数,s表示观察到的扳道员人数. r 012345 sr 444221942 解答: (1)已知,λ的最大似然估计为λL=Xˉ. 因此 ?P{X=0}=e-λL=e-Xˉ. (2)设X为一个扳道员在五年内引起的严重事故的次数,X服从参数为λ的泊松分布,样本容量n=122. 算得样本均值为 xˉ=1122×∑r=05r?r=1122×(0×44+1×42+2×21+3×9+4×4+5×2) ≈1.123, 因此 P{X=0}=e-xˉ=e-1.123≈0.3253. 习题6.3 置信区间 习题1 对参数的一种区间估计及一组观察值(x1,x2,?,xn)来说,下列结论中正确的是(). (A)置信度越大,对参数取值范围估计越准确; (B)置信度越大,置信区间越长; (C)置信度越大,置信区间越短; (D)置信度大小与置信区间有长度无关. 解答: 应选(B). 置信度越大,置信区间包含真值的概率就越大,置信区间的长度就越大,对未知参数的估计精度越低. 反之,对参数的估计精度越高,置信区间的长度越小,它包含真值的概率就越低,置信度就越小. 习题2 设(θ1,θ2)是参数θ的置信度为1-α的区间估计,则以下结论正确的是(). (A)参数θ落在区间(θ1,θ2)之内的概率为1-α; (B)参数θ落在区间(θ1,θ2)之外的概率为α; (C)区间(θ1,θ2)包含参数θ的概率为1-α; (D)对不同的样本观察值,区间(θ1,θ2)的长度相同. 解答: 应先(C). 由于θ1,θ2都是统计量,即(θ1,θ2)是随机区间,而θ是一个客观存在的未知常数,故(A),(B)不正确. 习题3 设总体的期望μ和方差σ2均存在,如何求μ的置信度为1-α的置信区间? 解答: 先从总体中抽取一容量为n的样本X1,X2,?,Xn.根据中心极限定理,知 U=Xˉ-μσ/n→N(0,1)(n→∞). (1)当σ2已知时,则近似得到μ的置信度为1-α的置信区间为 (Xˉ-uα/2σn,Xˉ+uα/2σn). (2)当σ2未知时,用σ2的无偏估计S2代替σ2, 这里仍有 Xˉ-μS/n→N(0,1)(n→∞), 于是得到μ的1-α的置信区间为 (Xˉ-uα/2Sn,Xˉ+uα/2Sn), 一般要求n≥30才能使用上述公式,称为大样本区间估计. 习题4 某总体的标准差σ=3cm, 从中抽取40个个体,其样本平均数xˉ=642cm, 试给出总体期望值μ的95%的置信上、下限(即置信区间的上、下限). 解答: 因为n=40属于大样本情形,所以Xˉ近似服从 N(μ,σ2n) 的正态分布,于是μ的95%的置信区间近似为 (Xˉ±σnuα/2), 这里xˉ=642,σ=3,n=40≈6.32,uα/2=1.96, 从而 (xˉ±σnuα/2)=(642±340×1.96)≈(642±0.93), 故μ的95%的置信上限为642.93, 下限为641.07. 习题5 某商店为了了解居民对某种商品的需要,调查了100家住户,得出每户每月平均需求量为10kg, 方差为9,如果这个商店供应10000户,试就居民对该种商品的平均需求量进行区间估计(α=0.01), 并依此考虑最少要准备多少这种商品才能以0.99的概率满足需求? 解答: 因为n=100属于大样本问题,所以Xˉ近似服从N(μ,σ2/n),于是μ的99%的置信区间近似为(Xˉ±Snuα/2), 而 xˉ=10,s=3,n=100, uα/2=2.58, 所以 (xˉ±snuα/2)=(10±3100×2.58)=(10±0.774)=(9.226,10.774). 由此可知最少要准备10.774×10000=107740(kg)这种商品,才能以0.99的概率满足需求. 习题6 观测了100棵“豫农一号”玉米穗位,经整理后得下表(组限不包括上限): 分组编号 12345 组限 组中值 70~8080~9090~100100~110110~12075859510511539131626 频数 分组编号 6789 组限 组中值 120~130130~140140~150150~16012513514515520742 频数 试以95%的置信度,求出该品种玉米平均穗位的置信区间. 解答: 因为n=100属于大样本情形,所以μ的置信度为95%的置信区间上、下限近似为Xˉ±snuα/2, 这里n=100,uα/2=1.96, 还需计算出xˉ和s. 取a=115,c=10, 令zi=(xi-a)/c=(xi-115)/10, 用简单算公式, (1)xˉ=a+czˉ; (2)sx2=c2sz2. 编号 组中值xi 123456789 758595105115125135145155 zi=xi-11510 组频率mi mizi -4-3-2-101234 zi2 mizi2 3913162620742 -12-27-26-1602014128 16941014916 123456789 zˉ=1100∑i=19mizi=1100×(-27)=-0.27, xˉ=10×(-27)+115=112.3, sz2=199∑i=19mizi2=199×313≈3.161616, sx2=102×3.161616=316.1616, sx≈17.78. 于是 (xˉ±snuα)≈(112.3±17.7810×1.96)≈(112.3±3.485) =(108.815,115.785). 习题7 某城镇抽样调查的500名应就业的人中,有13名待业者,试求该城镇的待业率p的置信度为0.95置信区间. 解答: 这是(0-1)分布参数的区间估计问题. 待业率p的0.95置信区间为 (p1,p2)=(-b-b2-4ac2a,-b+b2-4ac2a). 其中 a=n+uα/22,b=-2nXˉ-(uα/2)2, c=nXˉ2, n=500,xˉ=13500,uα/2=1.96. 则(p1,p2)=(0.015,0.044). 习题8 设X1,X2,?,Xn为来自正态总体N(μ,σ2)的一个样本,求μ的置信度为1-α的单侧置信限. 解答: 这是一个正态总体在方差未知的条件下,对μ的区间估计问题,应选取统计量: T=Xˉ-μS/n~t(n-1). 因为只需作单边估计,注意到t分布的对称性,故令 P{T 由给定的置信度1-α, 查自由度为n-1的t分布表可得单侧临界值tα(n-1). 将不等式T Xˉ-μS/n 分别变形,求出μ即得μ的1-α的置信下限为 Xˉ-tα(n-1)Sn. μ的1-α的置信上限为 Xˉ+tα(n-1)Sn, μ的1-α的双侧置信限 (Xˉ-tα/2(n-1)Sn,Xˉ+tα/2(n-1)Sn). 习题6.4 正态总体的置信区间 习题1 已知灯泡寿命的标准差σ=50小时,抽出25个灯泡检验,得平均寿命xˉ=500小时,试以95%的可靠性对灯泡的平均寿命进行区间估计(假设灯泡寿命服从正态分布). 解答: 由于X~N(μ,502), 所以μ的置信度为95%的置信区间为 (Xˉ±uα/2σn), 这里xˉ=500,n=25,σ=50,uα/2=1.96, 所以灯泡的平均寿命的置信区间为 (xˉ±uα/2σn)=(500±5025×1.96)=(500±19.6)=(480.4,519.6). 习题2 一个随机样本来自正态总体X,总体标准差σ=1.5, 抽样前希望有95%的置信水平使得μ的估计的置信区间长度为L=1.7, 试问应抽取多大的一个样本? 解答: 因方差已知,μ的置信区间长度为 L=2uα/2?σn, 于是n=(2σLuα/2)2. 由题设知,1-α=0.95,α=0.05,α2=0.025. 查标准正态分布表得 u0.025=1.96,σ=1.5,L=1.7, 所以,样本容量 n=(2×1.5×1.961.7)2≈11.96. 向上取整数得n=12, 于是欲使估计的区间长度为1.7的置信水平为95%, 所以需样本容量为n=12. 习题3 设某种电子管的使用寿命服从正态分布. 从中随机抽取15个进行检验,得平均使用寿命为1950小时,标准差s为300小时,以95%的可靠性估计整批电子管平均使用寿命的置信上、下限. 解答: 由X~N(μ,σ2), 知μ的95%的置信区间为 (Xˉ±Sntα/2(n-1)), 这里xˉ=1950,s=300,n=15,tα/2(14)=2.145, 于是 (xˉ±sntα/2(n-1))=(1950±30015×2.145) ≈(1950±166.151)=(1783.85,2116.15). 即整批电子管平均使用寿命的置信上限为2116.15, 下限为1783.85. 习题4 人的身高服从正态分布,从初一女生中随机抽取6名,测其身高如下(单位:cm): 149 158.5 152.5 165 157 142 求初一女生平均身高的置信区间(α=0.05). 解答: X~N(μ,σ2),μ的置信度为95%的置信区间为 (Xˉ±Sntα/2(n-1)), 这里xˉ=154, s=8.0187, t0.025(5)=2.571, 于是 (xˉ±sntα/2(n-1))=(154±8.01876×2.571) ≈(154±8.416)≈(145.58,162.42). 习题5 某大学数学测验,抽得20个学生的分数平均数xˉ=72, 样本方差s2=16, 假设分数服从正态分布,求σ2的置信度为98%的置信区间. 解答: 先取χ2分布变量,构造出1-α的σ2的置信区间为 ((n-1)S2χα/22(n-1),(n-1)S2χ1-α/22(n-1)). 已知1-α=0.98,α=0.02,α2=0.01,n=20, S2=16. 查χ2分布表得 χ0.012(19)=36.191,χ0.992(19)=7.633, 于是得σ2的98%的置信区间为(19×1636.191,19×167.633), 即(8.400,39.827). 习题6 随机地取某种炮弹9发做试验,得炮口速度的样本标准差s=11(m/s).设炮口速度服从正态分布,求这种炮弹的炮口速度的标准差σ的置信度为0.95的置信区间. 解答: 已知n=9,s=11(m/s),1-α=0.95.查表得 χ0.0252(8)=17.535, χ0.9752(8)=2.180, σ的0.95的置信区间为 (8sχ0.0252(8),8sχ0.9752(8)), 即(7.4,21.1). 习题7 设来自总体N(μ1,16)的一容量为15的样本,其样本均值x1ˉ=14.6; 来自总体N(μ2,9)的一容量为20的样本,其样本均值x2ˉ=13.2; 并且两样本是相互独立的,试求μ1-μ2的90%的置信区间. 解答: 1-α=0.9,α=0.1, 由Φ(uα/2)=1-α2=0.95, 查表,得 uα/2=1.645, 再由n1=15,n2=20, 得 σ12n1+σ22n2=1615+920=9160≈1.232, uα/2σ12n1+σ22n2=1.645×1.232≈2.03, xˉ1-xˉ2=14.6-13.2=1.4, 所以,μ1-μ2的90%的置信区间为 (1.4-2.03,1.4+2.03)=(-0.63,3.43). 习题8 物理系学生可选择一学期3学分没有实验课,也可选一学期4学分有实验的课. 期未考试每一章节都考得一样,若有上实验课的12个学生平均考分为84,标准差为4,没上实验课的18个学生平均考分为77,标准差为6,假设总体均为正态分布且其方差相等,求两种课程平均分数差的置信度为99%的置信区间. 解答: 设有实验课的考分总体X1~N(μ1,σ2), 无实验课的考分总体X2~N(μ2,σ2). 两方差相等但均未知,求μ1-μ2的99%的置信区间,应选t分布变量, T=X1ˉ-X2ˉ-(μ1-μ2)SW1n1+1n2~t(n1+n2-2), 其中SW=(n1-1)S12+(n2-1)S22n1+n2-2. μ1-μ2的1-α的置信区间为 (X1ˉ-X2ˉ±tα/2(n1+n2-2)SW1n1+1n2). 由已知,x1ˉ-x2ˉ=84-77=7, 且 sW=(12-1)×42+(18-1)×6212+18-2≈5.305, 112+118≈0.373, 1-α=0.99, α2=0.005, 查t分布表得t0.005(28)=2.763. 于是,μ1-μ2的0.99的置信区间为(7±2.763×5.305×0.373), 即(7±5.467), 亦即(1.53,12.47). 习题9 随机地从A批导线中抽取4根,又从B批导线中抽取5根,测得电阻(欧)为 A批导线 0.1430.1420.1430.137 B批导线 0.1400.1420.1360.1380.140 设测定数据分别来自分布N(μ1,σ2),N(μ2,σ2), 且两样本相互独立,又μ1,μ2,σ2均为未知,试求μ1-μ2的置信水平为0.95的置信区间. 解答: 对于1-α=0.95, 查表得t0.025(7)=2.3646, 算得 xˉ=0.141, yˉ=0.139; s12=8.25×10-6, s1≈0.0029. s22=5.2×10-6, s2=0.0023, sW≈0.0026, 15+14=0.6708, 故得μ1-μ2的0.95置信区间为 (0.141-0.139±2.3646×0.0026×0.6708), 即(-0.002,0.006). 习题10 设两位化验员A,B独立地对某种聚合物含氯量用相同的方法各作10次测定,其测定值的样本方差依次为 sA2=0.5419,sB2=0.6065. 设σA2,σB2分别为A,B所测定的测定值的总体方差,又设总体均为正态的,两样本独立,求方差比σA2/σB2的置信水平为0.95的置信区间. 解答: 选用随机变量 F=SA2σA2/SB2σB2~F(n1-1,n2-1), 依题意,已知sA2=0.5419, sB2=0.6065, n1=n2=10. 对于1-α=0.95, 查F分布表得F0.025(9,9)=1F0.025(9,9)=14.03, 于是得σA2σB2的0.95的置信区间为 (sA2sB21Fα/2(9,9),sA2sB2Fα/2(9,9))≈(0.222,3.601). 总习题解答 习题1 设总体X服从参数为λ(λ>0)的指数分布,X1,X2,?,Xn为一随机样本,令Y=min{X1,X2,?,Xn}, 问常数c为何值时,才能使cY是λ的无偏估计量. 解答: 关键是求出E(Y). 为此要求Y的密度fY(y). 因Xi的密度函数为fX(x)={λe-λx,x>00,x<0; Xi的分布函数为FX(x)={1-e-λx,x>00,x≤0, 于是 FY(y)=1-[1-FX(y)]n={1-e-nλy,y>00,y≤0. 两边对y求导得fY(y)=ddyFY(y)={nλe-nλy,y>00,y≤0, 即Y服从参数为nλ的指数分布,故 E(Y)=nλ. 为使cY成为λ的无偏估计量,需且只需E(cY)=λ, 即cnλ=λ, 故c=1n. 习题2 设X1,X2,?,Xn是来自总体X的一个样本,已知E(X)=μ, D(X)=σ2. (1)确定常数c, 使c∑i=1n-1(Xi+1-Xi)2为σ2的无偏估计; (2)确定常数c, 使(Xˉ)2-cS2是μ2的无偏估计(Xˉ,S2分别是样本均值和样本方差). 解答: (1)E(c∑i=1n-1(Xi+1-Xi)2) =c∑i=1n-1E(Xi+12-2XiXi+1+Xi2) =c∑i=1n-1{D(Xi+1)+[E(Xi+1)]2-2E(Xi)E(Xi+1)+D(Xi)+[E(Xi)+[E(Xi)]2} =c(n-1)(σ2+μ2-2μ2+σ2+μ2)=2(n-1)σ2c. 令2(n-1)σ2c=σ2, 所以 c=12(n-1). (2)E[(Xˉ)2-cS2]=E(Xˉ2)-cE(S2)=D(Xˉ)+[E(Xˉ)]2-cσ2 =σ2n+μ2-cσ2. 令σ2n+μ2-cσ2=μ2, 则得c=1n. 习题3 设X1,X2,X3,X4是来自均值为θ的指数分布总体的样本,其中θ未知. 设有估计量 T1=16(X1+X2)+13(X3+X4), T2=X1+2X2+3X3+4X45, T3=X1+X2+X3+X44. (1)指出T1,T2,T3中哪几个是θ的无偏估计量; (2)在上述θ的无偏估计中指出一个较为有效的. 解答: (1)θ=E(X),E(Xi)=E(X)=θ,D(X)=θ2=D(Xi),i=1,2,3,4. E(T1)=E(16(X1+X2)+13(X3+X4))=(26+23)θ=θ, E(T2)=15E(X1+2X2+3X3+4X4)=15(1+2+3+4)θ=2θ, E(T3)=14E(X1+X2+X3+X4)=θ, 因此,T1,T3是θ的无偏估计量. (2)D(T1)=236θ2+29θ2=1036θ2, D(T3)=116?4θ2=14θ2=936θ2, 所以D(T3) 习题4 设从均值为μ, 方差为σ2(σ>0)的总体中,分别抽取容量为n1,n2的两独立样本,X1ˉ和X2ˉ分别是两样本的均值,试证:对于任意常数a,b(a+b=1),Y=aX1ˉ+bX2ˉ都是μ的无偏估计;并确定常数a,b, 使D(Y)达到最小. 解答: E(Y)=E(aX1ˉ+bX2ˉ)=aE(X1ˉ)+bE(X2ˉ)=(a+b)μ. 因为a+b=1, 所以E(Y)=μ. 因此,对于常数a,b(a+b=1),Y都是μ的无偏估计, D(Y)=a2D(X1ˉ)+b2D(X2ˉ)=a2σ2n1+b2σ2n2. 因a+b=1, 所以D(Y)=σ2[a2n1+1n2(1-a)2], 令dD(Y)da=0, 即2σ2(an1-1-an2)=0, 解得 a=n1n1+n2,b=n2n1+n2 是惟一驻点. 又因为d2D(Y)da2=2σ2(1n1+1n2)>0, 故取此a,b二值时,D(Y)达到最小. 习题5 设有一批产品,为估计其废品率p, 随机取一样本X1,X2,?,Xn, 其中 Xi={1,取得废品0,取得合格品, i=1,2,?,n, 证明:p=Xˉ=1n∑i=1nXi是p的一致无偏估计量. 解答: 由题设条件 E(Xi)=p?1+(1-p)?0=p, D(Xi)=E(Xi2)-[E(Xi)]2=p?12+(1-p)02-p2=p(1-p), E(p)=E(Xˉ)=E(1n∑i=1nE(Xi))=1n∑i=1nE(Xi)=1n∑i=1np=p. 由定义,p是p的无偏估计量,又 D(p)=D(Xˉ)=D(1n∑i=1nXi)=1n2∑i=1nD(Xi) =1n2∑i=1np(1-p)=1n2np(1-p)=pqn. 由切比雪夫不等式,任给?>0 P{∣p-p∣≥?}=P{∣Xˉ-p∣≥?}≤1?2D(Xˉ)=1?2p(1-p)n→0,n→∞ 所以limn→∞P{∣p-p∣≥?}=0, 故p=Xˉ是废品率p的一致无偏估计量. 习题6 设总体X~b(k,p), k是正整数,0 解答: 因总体X服从二项分布b(k,p), 故 {a1=E(X)=kpa2=E(X2)=D(X)+[E(X)]2=kp(1-p)+(kp)2, 解此方程组得p=a1+a12-a2a1,k=a12a1+a12-a2. 用A1=1n∑i=1nXi=Xˉ,A2=1n∑i=1nXi2分别代替a1,a2, 即得p,k的矩估计为 p=Xˉ-S2Xˉ,k=[Xˉ2Xˉ-S2], 其中S2=1n∑i=1n(Xi-Xˉ)2,[x]表示x的最大整数部分. 习题7 求泊松分布中参数λ的最大似然估计. 解答: 总体的概率函数为 P{X=k}=λkk!e-λ,k=0,1,2,?. 设x1,x2,?,xn为从总体中抽取的容量为n的样本,则似然函数为 L(x1,x2,?,xn;λ)=∏i=1nf(xi;λ)=∏i=1nλxixi!e-λ=λ∑i=1nxi∏i=1nxi!e-nλ, lnL=(∑i=1nxi)lnλ-nλ-∑i=1nlnxi!, 令dlnLdλ=1λ∑i=1nxi-n=0, 得λ的最大是然估计为 λ=1n∑i=1nxi=xˉ, 即xˉ=1n∑i=1nxi就是参数λ的最大似然估计. 习题8 已知总体X的概率分布 P{X=k}=C2k(1-θ)kθ2-k,k=0,1,2, 求参数的矩估计. 解答: 总体X为离散型分布,且只含一个未知参数θ, 因此,只要先求离散型随机变量的数学期望E(X), 然后解出θ并用样本均值Xˉ代替E(X)即可得θ的矩估计θ. 由E(X)=∑k=02kC2k(1-θ)kθ2-k=1×2(1-θ)θ+2(1-θ)2=2-2θ, 即有 θ=1-E(X)2. 用样本均值Xˉ代替上式的E(X), 得矩估计为θ=1-Xˉ2. 习题9 设总体X的概率密度为 f(x)={(θ+1)xθ,0 其中θ>-1是未知参数,X1,X2,?,Xn为一个样本,试求参数θ的矩估计和最大似然估计量. 解答: 因E(X)=∫01(θ+1)xθ+1dx=θ+1θ+2. 令E(X)=1n∑i=1nXi=Xˉ, 得θ+1θ+2=Xˉ, 解得θ的矩估计量为 θ=2Xˉ-11-Xˉ. 设x1,x2,?,xn是样本X1,X2,?,Xn的观察值,则似然函数 L(x1,x2,?,xn,θ)=∏i=1n(θ+1)xiθ =(θ+1)n(x1x2?xn)θ(0 由此可知,θ的矩估计和最大似然估计是不相同的. 习题10 设X具有分布密度 f(x,θ)={θxe-θx!,x=0,1,2,?0,其它,0<θ<+∞, X1,X2,?,Xn是X的一个样本,求θ的最大似然估计量. 解答: 似然函数 L(θ)=∏i=1nθxie-θxi!=e-nθ∏i=1nθxixi!, lnL(θ)=-nθ+∑i=1nxilnθ-∑i=1nln(xi!), ddθ(lnL(θ))=-n+1θ∑i=1nxi, 令ddθ(lnL(θ))=0, 即 -n+1θ∑i=1nxi=0?θ=1n∑i=1nxi, 故θ最大似然估计量为 θ=Xˉ=1n∑i=1nXi. 习题11 设使用了某种仪器对同一量进行了12次独立的测量,其数据(单位:毫米)如下: 232.50 232.48 232.15 232.53 232.45 232.30 232.48 232.05 232.45 232.60 232.47 232.30 试用矩估计法估计测量值的均值与方差(设仪器无系统误差). 解答: 设测量值的均值与方差分别为μ与σ2,因为仪器无系统误差,所以 θ=μ=Xˉ=1n∑i=1nXi=232+112∑i=1n(Xi-232) =232+1/12×4.76≈232.3967. 用样本二阶中心矩B2估计方差σ2, 有 σ2=1n∑i=1n(Xi-Xˉ)2=1n∑i=1n(Xi-a)2-(Xˉ-a)2 =112∑i=112(Xi-232)2-(232.3967-232)2 =0.1819-0.1574=0.0245. 习题12 设随机变量X服从二项分布 P{X=k}=Cnkpk(1-p)n-k,k=0,1,2,?,n, X1为其一个样本,试求p2的无偏估计量. 解答: \\becauseX~b(n,p), ∴E(X)=np, D(X)=np(1-p)=E(X)-np2 ?p2=1n[E(X)-D(X)]=1n[E(X)-E(X2)+(EX)2] ?p2=1n[E(X(1-X))]+1nn2p2=1nE(X(1-X))]+np2 ?p2=E[X(X-1)]n(n-1), 由于E[X(X-1)]=E[X1(X1-1)], 故 p2=X1(X1-1)n(n-1). 习题13 设X1,X2,?,Xn是来自总体X的随机样本,试证估计量 Xˉ=1n∑i=1nXi和Y=∑i=1nCiXi(Ci≥0为常数,∑i=1nCi=1) 都是总体期望E(X)的无偏估计,但Xˉ比Y有效. 解答: 依题设可得 E(Xˉ)=1n∑i=1nE(Xi)=1n×nE(X)=E(X), E(Y)=∑i=1nCiE(Xi)=E(X)∑i=1nCi=E(X). 从而Xˉ,Y均为E(X)的无偏估计量,由于 D(Xˉ)=1n2∑i=1nD(Xi)=1nD(X), D(Y)=D(∑i=1nCiXi)=∑i=1nCi2D(Xi)=D(X)∑i=1nCi2. 应用柯西—施瓦茨不等式可知 1=(∑i=1nCi)2≤(∑i=1nCi2)(∑i=1n12)=n∑i=1nCi2, ?1n≤∑i=1nCi2, 所以D(Y)≥D(Xˉ), 故Xˉ比Y有效. 习题14 设X1,X2,?,Xn是总体X~U(0,θ)的一个样本,证明:θ1=2Xˉ和θ2=n+1nX(n)是θ的一致估计. 解答: 因E(θ1)=θ, D(θ1)=θ23n; E(θ2)=θ,D(θ2)=θn(n+2),X(n)=max{Xi}. 依切比雪夫不等式,对任给的?>0, 当n→∞时,有 P{∣θ1-θ∣≥?}≤D(θ1)?2=θ23n?2→0,(n→∞) P{∣θ2-θ∣≥?}≤D(θ2)?2=θ2n(n+1)?2→0,(n→∞) 所以,θ1和θ2都是θ的一致估计量. 习题15 某面粉厂接到许多顾客的订货,厂内采用自动流水线灌装面粉,按每袋25千克出售. 现从中随机地抽取50袋,其结果如下: 25.8, 24.7, 25.0, 24.9, 25.1, 25.0, 25.2, 24.8, 25.4, 25.3, 23.1, 25.4, 24.9, 25.0, 24.6, 25.0, 25.1, 25.3, 24.9, 24.8, 24.6, 21.1, 25.4, 24.9, 24.8, 25.3, 25.0, 25.1, 24.7, 25.0, 24.7, 25.3, 25.2, 24.8, 25.1, 25.1, 24.7, 25.0, 25.3, 24.9, 25.0, 25.3, 25.0, 25.1, 24.7, 25.3, 25.1, 24.9, 25.2, 25.1, 试求该厂自动流水线灌装袋重总体X的期望的点估计值和期望的置信区间(置信度为0.95). 解答: 设X为袋重总体,则E(X)的点估计为 E(X)=Xˉ=150(25.8+24.7+?+25.1)=24.92kg. 因为样本容量n=50, 可作为大样本处理,由样本值算得xˉ=24.92, s2≈0.4376, s=0.6615, 则E(X)的置信度为0.95的置信区间近似为 (Xˉ-uα/2Sn,Xˉ+uα/2Sn), 查标准正态分布表得uα/2=u0.025=1.96, 故所求之置信区间为 (24.92-1.96×0.661550,24.92+1.96×0.661550)=(24.737,25.103), 即有95%的把握,保证该厂生产的面粉平均每袋重量在24.737千克至25.103千克之间. 习题16 在一批货物的容量为100的样本中,经检验发现有16只次品,试求这批货物次品率的置信度为0.95的置信区间. 解答: 这是(0-1)分布参数区间的估计问题. 这批货物次品率p的1-α的置信区间为 (p1,p2)=(12a(-b-b2-4ac),12a(-b+b2-4ac)). 其中a=n+uα/22,b=-(2nXˉ+uα/22), c=nXˉ2. 由题意,xˉ=16100=0.16,n=100,1-α=0.95,u0.025=1.96. 算得 a=100+1.962=103.842, b=-(2×100×0.16+1.962)=-35.842, c=100×0.162=2.56. p的0.95的置信区间为(p1,p2)=(12a(-b±b2-4ac)), 即 (12×103.842(35.8416±221.2823)), 亦即(0.101,0.244). 习题17 在某校的一个班体检记录中,随意抄录25名男生的身高数据,测得平均身高为170厘米,标准差为12厘米,试求该班男生的平均身高μ和身高的标准差σ的置信度为0.95的置信区间(假设测身高近似服从正态分布). 解答: 由题设身高X~N(μ,σ2), n=25, xˉ=170, s=12,α=0.05. (1)先求μ置信区间(σ2未知),取 U=Xˉ-μS/n~t(n-1),tα/2(n-1)=t0.025(24)=2.06. 故μ的0.95的置信区间为 (170-1225×2.06,170+1225×2.06) =(170-4.94,170+4.94)=(165.06,174,94). (2)σ2的置信区间(μ未知),取 U=(n-1)S2σ2~χ2(n-1), χα/22(n-1)=χ0.0252(24)=39.364, χ1-α/22(n-1)=χ0.9752(24)=12.401, 故σ2的0.95的置信区间为(24×12239.364,24×12212.401)≈(87.80,278.69), σ的0.95的置信区间为 (87.80,278.69)≈(9.34,16.69). 习题18 为研究某种汽车轮胎的磨损特性,随机地选择16只轮胎,每只轮胎行驶到磨坏为止. 记录所行驶的路程(以千米计)如下: 41250 40187 43175 41010 39265 41872 42654 41287 38970 40200 42550 41095 40680 43500 39775 40440 假设这些数据来自正态总体N(μ,σ2). 其中μ,σ2未知,试求μ的置信水平为0.95的单侧置信下限. 解答: 由P{μ>Xˉ-Sntα(n-1)=1-α, 得μ的1-α的单侧置信下限为 μˉ=Xˉ-Sntα(n-1). 由所给数据算得xˉ≈41119.38,s≈1345.46,n=16. 查t分布表得t0.05(15)=1.7531, 则有μ的0.95的单侧置信下限为 μˉ=41119.38-1345.464×1.7531≈40529.73. 习题19 某车间生产钢丝,设钢丝折断力服从正态分布,现随机在抽取10根,检查折断力,得数据如下(单位:N): 578,572,570,568,572,570,570,572,596,584. 试求钢丝折断力方差的置信区间和置信上限(置信度为0.95). 解答: (1)这是一个正态总体,期望未知,对方差作双侧置信限的估计问题,应选统计量 χ2=(n-1)S2σ2~χ2(n-1). σ2的1-α的置信区间是 ((n-1)S2χα/22(n-1),(n-1)S2χ1-α/22(n-1)). 由所给样本值得 xˉ=575.2, (n-1)s2=∑1=110(xi-xˉ)2=681.6; 根据给定的置信度1-α=0.95(即α=0.05). 查自由度为10-1=9的χ2分布表,得双侧临界值 χα/22(n-1)=χ0.0252(9)=19.0, χ1-α/22(n-1)=χ0.9752(9)=2.7, 代入上公式得σ2的95%的置信区间为 (681.619.0,681,62.70)=(35.87,232.44), 即区间(35.87,232.44)包含σ2的可靠程度为0.95. (2)这是一个正态总体期望未知时,σ2的单侧区间估计问题,σ2的置信度为1-α=95%(α=0.05)的单侧置信上限为 (n-1)S2χ1-α2(n-1)=∑i=110(xi-xˉ)2χ1-α2(n-1), 已算得(n-1)S2=∑i=110(xi-xˉ)2=681.6, 根据自由度1-α=0.95. 查自由度10-1=9的χ2分布表得单侧临界值 χ1-α2(n-1)=χ0.952(9)=3.325, 代入上式便得σ2的0.95的置信上限为681.63.325=205, 即有95%的把握,保证σ2包含在区间(0,205)之内,当然也可能碰上σ2超过上限值205的情形,但出现这种情况的可能性很小,不超过5%. 习题20 设某批铝材料比重X服从正态分布N(μ,σ2),现测量它的比重16次,算得xˉ=2.705,s=0.029,分别求μ和σ2的置信度为0.95的置信区间。 解答: (1)对1-α=0.95,即α=0.05,查t-分布表得tα/2(15)=2.131,于是 xˉ+tα/2(15)sn=2.705+2.131×0.02916=2.705+0.016=2.721, xˉ-tα/2(15)sn=2.705-0.016=2.689. 则由题意知,关于μ的所求置信区间为(2.689,2.721)。 (2)对α=0.05,查χ2-分布表,得 χ0.052(15)=27.5,χ0.952(15)=6.26. 于是,1-α的σ2的置信区间为 ((n-1)s2χα/22(n-1),(n-1)s2χ1-α/22(n-1))=(0.000489,0.002150). 习题21 某公司欲估计自己生产的电池寿命.现从其产品中随机抽取50只电池做寿命试验,这些电池的寿命的平均值xˉ=2.266(单位:100小时), s=1.935, 求该公司生产的电池平均寿命的置信度为95%的置信区间. 解答: 查正态分布表得uα/2=u0.025=1.96, 由公式(Xˉ-uα/2S/n,Xˉ+uα/2S/n), 得到 (2.266±1.96×1.93550), 经简单计算上式化为(1.730,2.802). 于是,我们有如下近似结论:该公司电池的平均寿命的置信度约为95%的置信区间为(1.730,2.802). 习题22 某印染厂在配制一种染料时,在40次试验中成功了34次,求配制成功的概率p的置信度为0.95的置信区间. 解答: 总体是试验的分布,p是成功率. 已知n=40, p=34/40, u0.025=1.96, 所以,p的置信度为0.95的置信区间为 (p1,p2)≈(p-uα/2p(1-p)n,p+uα/2p(1-p)n) =(3440-1.963440×640/40,3440+1.963440×640/40), 即(0.7378,0.9607). 习题23 两家电影公司出品的影片放映时间如表所示,假设放映时间均服正态分布,求电影公司的影片放映时间方差比的置信度为90%的置信区间. 时间/分钟 公司Ⅰ 103 94 110 87 98 公司Ⅱ 97 82 123 92 175 88 118 解答: 由所给数据算出 x1ˉ=98.40,x2ˉ=110.71,s12=8.732,s22=32.192,n1=5,n2=7. 因为是求方差比的区间估计,故选用F分布变量,即 F=S12S22/σ12σ22~F(n1-1,n2-1). 对于置信度1-α, 取双侧概率相等的置信区间为 (S12S22?1Fα/2(n1-1,n2-1),S12S22?Fα/2(n2-1,n1-1)). 本题所给1-α=0.90,α=0.10,α2=0.05,n1=5,n2=7. 查F分布表得 F0.05(6,4)=6.16,F0.05(4,6)=4.53, s12s22=8,73232.192=0.0376, 于是σ12σ22的0.90的置信区间为(0.073×14.53,0.0736×6.16), 即(0.016,0.453). 习题24 公共汽车站在一单位时间内(如半小时或一天等)到达乘客数服从泊松分布P(λ), 对不同的车站,所不同的仅仅是参数λ的取值不同. 现对一城市某一公共汽车站进行了100个单位时间的调查,这里单位时间是20分钟,计算得到每20分钟内来到该车站的乘客数平均值xˉ=15.2人,试求参数λ的置信度为95%的置信区间. 解答: n=100,α=0.05, uα/2=u0.025=1.96, xˉ=15.2, 应用公式(Xˉ-uα/2Xˉ/n,Xˉ+uα/2Xˉ/n), 得 (xˉ±uα/2xˉ/n)=(15.2±1.9615.2/100)=(14.44,15.96), 即(14.44,15.96)为参数λ的置信度约为95%的置信区间. 第七章 假设检验 7.1 假设检验的基本概念 习题1 样本容量n确定后,在一个假设检验中,给定显著水平为α,设此第二类错误的概率为β,则必有(). (A)α+β=1; (B)α+β>1; (C)α+β<1; (D)α+β<2. 解答: 应选(D). 当样本容量n确定后,α,β不能同时都很小,即α变小时,β变大;而β变小时,α变大. 理论上,自然希望犯这两类错误的概率都很小,但α,β的大小关系不能确定,并且这两类错误不能同时发生,即α=1且β=1不会发生,故选(D). 习题2 设总体X~N(μ,σ2), 其中σ2已知,若要检验μ, 需用统计量U=Xˉ-μ0σ/n. (1)若对单边检验,统计假设为 H0:μ=μ0(μ0已知), H1:μ>μ0, 则拒绝区间为 ; (2)若单边假设为H0:μ=μ0,H1:μ<μ0, 则拒绝区间为 (给定显著性水平为α, 样本均值为Xˉ, 样本 容量为n, 且可记u1-α为标准正态分布的(1-α)分位数). 解答: 应填(1)U>u1-α; (2)U 如何理解假设检验所作出的“拒绝原假设H0”和“接受原假设H0”的判断? 解答: 拒绝H0是有说服力的,接受H0是没有充分说服力的. 因为假设检验的方法是概率性质的反证法,作为反证法就是必然要“推出矛盾”,才能得出“拒绝H0”的结论,这是有说服力的,如果“推不出矛盾”,这时只能说“目前还找不到拒绝H0的充分理由”,因此“不拒绝H0”或“接受H0”,这并没有肯定H0一定成立. 由于样本观察值是随机的,因此拒绝H0,不意味着H0是假的,接受H0也不意味着H0是真的,都存在着错误决策的可能. 当原假设H0为真,而作出了拒绝H0的判断,这类决策错误称为第一类错误,又叫弃真错误,显然犯这类错误的概率为前述的小概率α:α=P(拒绝H0|H0为真); 而原假设H0不真,却作出接受H0的判断,称这类错误为第二类错误,又称取伪错误,它发生的概率β为β=P(接受H0|H0不真). 习题4 犯第一类错误的概率α与犯第二类错误的概率β之间有何关系? 解答: 一般来说,当样本容量固定时,若减少犯一类错误的概率,则犯另一类错误的概率往往会增大.要它们同时减少,只有增加样本容量n. 在实际问题中,总是控制犯第一类错误的概率α而使犯第二类错误的概率尽可能小.α的大小视具体实际问题而定,通常取α=0.05,0.005等值. 习题5 在假设检验中,如何理解指定的显著水平α? 解答: 我们希望所作的检验犯两类错误的概率尽可能都小,但实际上这是不可能的. 当样本容量n固定时,一般地,减少犯其中一个错误的概率就会增加犯另一个错误的概率. 因此,通常的作法是只要求犯第一类错误的概率不大于指定的显著水平α, 因而根据小概率原理,最终结论为拒绝H0较为可靠,而最终判断力接受H0则不大可靠,其原因是不知道犯第二类错误的概率β究竟有多少,且α小,β就大,所以通常用“H0相容”,“不拒绝H0”等词语来代替“接受H0”,而“不拒绝H0”还包含有再进一步作抽样检验的意思. 习题6 在假设检验中,如何确定原假设H0和备择假设H1? 解答: 在实际中,通常把那些需要着重考虑的假设视为原假设H0,而与之对应的假设视为备择假设H1. (1)如果问题是要决定新方案是否比原方案好,往往将原方案取假设,而将新方案取为备择假设; (2)若提出一个假设,检验的目的仅仅是为了判断这个假设是否成立,这时直接取此假设为原假设H0即可. 习题7 假设检验的基本步骤有哪些? 解答: 根据反证法的思想和小概率原理,可将假设检验的步骤归纳如下: (1)根据问题的要求,提出原理假设H0和备择假设H1. (2)根据检验对象,构造检验统计量T(X1,X2,?,Xn), 使当H0为真时,T有确定的分布. (3)由给定的显著水平α, 查统计量T所服从的分布表,定出临界值λ, 使 P(∣T∣>λ)=α, 或 P(T>λ1)=P(T<λ2)=α/2, 从而求出H0的拒绝域:∣T∣>λ或T>λ1,T<λ2. (4)由样本观察值计算统计量T的观察值t. (5)作出判断,将t的值与临界值比较大小作出结论: 当t∈拒绝域量时,则拒绝H0,否则,不拒绝H0,即认为在显著水平α下,H0与实际情况差异不显著. 习题8 假设检验与区间估计有何异同? 解答: 假设检验与区间估计的提法虽不同,但解决问题的途径是相通的. 参数θ的置信水平为1-α的置信区间对应于双边假设检验在显著性水平α下的接受域;参数θ的置信水平为1-α的单侧置信区对应于单边假设检验在显著性水平α下的接受域. 在总体的分布已知的条件下,假设检验与区间估计是从不同的角度回答同一个问题. 假设检验是判别原假设H0是否成立,而区间估计解决的是“多少”(或范围), 前者是定性的,后者是定量的. 习题9 某天开工时,需检验自动包装工作是否正常. 根据以往的经验,其装包的质量在正常情况下服从正态分布 N(100,1.52)(单位:kg). 现抽测了9包,其质量为: 99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.0,100.5. 问这天包装机工作是否正常?将这一问题化为假设检验问题. 写出假设检验的步骤(α=0.05). 解答: (1)提出假设检验问题H0:μ=100, H1:μ≠100; (2)选取检验统计量U:U=Xˉ-1001.59, H0成立时, U~N(0,1); (3)α=0.05,uα/2=1.96, 拒绝域W={∣u∣>1.96}; (4)xˉ≈99.97,∣u∣=0.06. 因∣u∣ 习题10 设总体X~N(μ,1),X1,X2,?,Xn是取自X的样本. 对于假设检验 H0:μ=0,H1:μ≠0, 取显著水平α, 拒绝域为W={∣u∣>uα/2}, 其中u=nXˉ, 求: (1)当H0成立时, 犯第一类错误的概率α0; (2)当H0不成立时(若μ≠0), 犯第二类错误的概率β. 解答: (1)X~N(μ,1),Xˉ~N(μ,1/n), 故nXˉ=u~N(0,1). α0=P{∣u∣>uα/2∣μ=0}=1-P{-uα/2≤u≤uα/2} =1-[Φ(uα/2)-Φ(-uα/2)]=1-[(1-α2)-α2]=α, 即犯第一类错误的概率是显著水平α. (2)当H0不成立,即μ≠0时,犯第二类错误的概率为 β=P{∣u∣≤uα/2∣E(X)=μ} =P{-uα/2≤u≤uα/2∣E(X)=μ} =P{-uα/2≤nXˉ≤uα/2∣E(X)=μ} =P{-uα/2-nμ≤n(Xˉ-μ)≤uα/2-nμ∣E(X)=μ} =Φ(uα/2-nμ)-Φ(-uα/2-nμ). 注1当μ→+∞或μ→-∞时,β→0. 由此可见,当实际均值μ偏离原假设较大时,犯第二类错误的概率很小,检验效果较好. 注2当μ≠0但接近于0时,β≈1-α. 因α很小,故犯第二类错误的概率很大,检验效果较差. 7.2 单正态总体的假设检验 习题1 已知某炼铁厂铁水含碳量服从正态分布N(4.55,0.1082). 现在测定了9炉铁水,其平均含碳量为4.484. 如果估计方差没有变化,可否认为现在生产的铁水平均含碳量仍为4.55(α=0.05)? 解答: 本问题是在α=0.05下检验假设 H0:μ=4.55, H1:μ≠4.55. 由于σ2=0.1082已知,所以可选取统计量 U=Xˉ-4.550.108/9, 在H0成立的条件下,U~N(0,1), 且此检验问题的拒绝域为 ∣U∣=∣Xˉ-4.550.108/9∣>uα/2, 这里 u=4.484-4.550.108/9≈-1.833,uα/2=1.96. 显然 ∣u∣=1.833<1.96=uα/2. 说明U没有落在拒绝域中,从而接受H0, 即认为现在生产之铁水平均含碳量仍为4.55. 习题2 要求一种元件平均使用寿命不得低于1000小时,生产者从一批这种元件中随机抽取25件,测得其寿命的平均值为950小时. 已知该种元件寿命服从标准差为σ=100小时的正态分布,试在显著性水平α=0.05下确定这批元件是否合格?设总体均值为μ,μ未知,即需检验假设H0:μ≥1000,H1:μ<1000. 解答: 检验假设H0:μ≥1000,H1:μ<1000. 这是单边假设检验问题. 由于方差σ2=0.05, 故用u检验法. 对于显著性水平α=0.05, 拒绝域为 W={Xˉ-1000σ/n<-uα. 查标准正态分布表,得u0.05=1.645. 又知n=25,xˉ=950, 故可计算出 xˉ-1000σ/n=950-1000100/25=-2.5. 因为-2.5<-1.645, 故在α=0.05下拒绝H0, 认为这批元件不合格. 习题3 打包机装糖入包,每包标准重为100kg. 每天开工后,要检验所装糖包的总体期望值是否合乎标准 (100kg). 某日开工后,测得9包糖重如下(单位:kg): 99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5 打包机装糖的包得服从正态分布,问该天打包机工作是否正常(α=0.05)? 解答: 本问题是在α=0.05下检验假设 H0:μ=100,H1:μ≠100. 由于σ2未知,所以可选取统计量T=Xˉ-100S/n, 在H0成立的条件下,T~t(n-1), 且此检验问题的拒绝域为 ∣T∣=∣Xˉ-100S/n∣>tα/2(n-1), 这里 t=xˉ-100s/n≈99.978-1001.2122/9≈-0.0544, t0.025(8)=2.306. 显然 ∣t∣=0.0544<2.306=t0.025(8), 即t未落在拒绝域中,从而接受H0, 即可以认为该天打包工作正常. 习题4 机器包装食盐,假设每袋盐的净重服从正态分布,规定每袋标准含量为500g, 标准差不得超过10g. 某天开工后,随机抽取9袋,测得净重如下(单位:g): 497, 507, 510, 475, 515, 484, 488, 524, 491, 试在显著性水平α=0.05下检验假设: H0:μ=500,H1:μ≠500. 解答: xˉ=499,s≈16.031,n=9, t=(xˉ-μ0)sn=499-50016.0319=-0.1871, α=0.05, t0.025(8)=2.306. 因∣t∣ 从清凉饮料自动售货机,随机抽样36杯,其平均含量为219(mL), 标准差为14.2mL, 在α=0.05的显著性水平下,试检验假设:H0:μ=μ0=222,H1:μ<μ0=222. 解答: 设总体X~N(μ,σ2),X代表自动售货机售出的清凉饮料含量,检验假设 H0:μ=μ0=222(mL), H1:μ<222(mL). 由α=0.05,n=36, 查表得t0.05(36-1)=1.6896, 拒绝域为 W={t=xˉ-μ0s/n<-tα(n-1). 计算t值并判断: t=219-22214.2/36≈-1.27>-1.6896, 习题6 某种导线的电阻服从正态分布N(μ,0.0052). 今从新生产的一批导线中抽取9根,测其电阻,得s=0.008Ω, 对于α=0.05, 能否认为这批导线电阻的标准差仍为0.005? 解答: 本问题是在α=0.05下检验假设 H0:σ2=0.0052, H1:σ2≠0.0052. 选取统计量χ2=n-1σ2S2, 在H0成立的条件下, χ2~χ2(n-1), 且此检验问题的拒绝域为 χ2>χα/22(n-1)或χ2<χ1-α/22(n-1). 这里 χ2=9-10.0052s2=80.0052×0.0082=20.48, χ0.9752(8)=2.18,χ0.0252(8)=17.5. 显然χ2落在拒绝域中,从而拒绝H0, 即不能认为这批导线电阻的标准差仍为0.005. 习题7 某厂生产的铜丝,要求其折断力的方差不超过16N2. 今从某日生产的铜丝中随机抽取容量为9的样本,测得其折断力如下(单位:N): 289, 286, 285, 286, 285, 284, 285, 286, 298, 292 设总体服从正态分布,问该日生产的铜线的折断力的方差是否符合标准(α=0.05)? 解答: 检验问题为 H0:σ2≤16, H1:σ2>16, n=9, s2≈20.3611, χ2=8×s216≈10.181, α=0.05, χ0.052(8)=15.507. 因χ2<χ0.052(8)=15.507, 故接受H0, 可认为铜丝的折断力的方差不超过16N2. 习题8 过去经验显示,高三学生完成标准考试的时间为一正态变量,其标准差为6min. 若随机样本为20位学生,其标准差为s=4.51, 试在显著性水平α=0.05下,检验假设: H0:σ≥6,H1:σ<6. 解答: H0:σ≥6,H1:σ<6. α=0.05,n-1=19,s=4.51,χ0.952(19)=10.117. 拒绝域为W={χ2<10.117}. 计算χ2值 χ2=(20-1)×4.51262≈10.74. 因为10.74>10.117, 故接受H0, 认为σ≥6. 习题9 测定某种溶液中的水分,它的10个测定值给出s=0.037%, 设测定值总体服从正态分布,σ2为总体方差, σ2未知,试在α=0.05水平下检验假设: H0:σ≥0.04%,H1:σ<0.04%. 解答: 在α=0.05下,拒绝域为 W={(n-1)S2σ02<χ1-α2(9). 查χ2分布表得χ0.952(9)=3.325. 计算得 (n-1)s2σ02=(10-1)×(0.037\\per)2(0.04\\per)2≈7.7006>3.325, 未落入拒绝域,故接受H0. 7.3 双正态总体的假设检验 习题1 制造厂家宣称,线A的平均张力比线B至少强120N, 为证实其说法,在同样情况下测试两种线各50条.线A的平均张力xˉ=867N, 标准差为σ1=62.8N; 而线B的平均张力为yˉ=778N, 标准差为σ2=56.1N. 在 α=0.05的显著性水平下,试检验此制造厂家的说法. 解答: H0:μ1-μ2=120,H1:μ1-μ2<120. α=0.05,u0.05=1.645. 拒绝域为 W={u=xˉ-yˉ-120σ12n1+σ22n2<-uα. 由xˉ=867,yˉ=778,n1=n2=50, σ12=(62.8)2,σ22=(56.1)2, 得 u=867-778-120(62.8)250+(56.1)250≈-3111.91≈-2.60. 因为-2.60<-1.645, 故拒绝H0, 认为μ1-μ2<120, 即厂家的说法不对. 习题2 欲知某新血清是否能抑制白血球过多症,选择已患该病的老鼠9只,并将其中5只施予此种血清,另外4只则不然.从实验开始,其存活年限表示如下: 接受血清 2.1,5.3,1.4,4.6,0.9 未接受血清 1.9,0.5,2.8,3.1 假设两总体均服从方差相同的正态分布,试在显著性水平α=0.05下检验此种血清是否有效? 解答: 设μ1,μ2分别为老鼠接受和未接受血清的平均存活年限。则检验假设H0:μ1-μ2=0,H1:μ1-μ2>0. 属单边检验问题. 对给定的α=0.05, 拒绝域为 W={x1ˉ-x2ˉ-0sw1n1+1n2>tα(n1+n2-2). 由x1ˉ=2.86,x2ˉ=2.075,s1≈1.971,s2≈1.167, 可计算出 sw=(5-1)×(1.971)2+(4-1)×(1.167)25+4-2≈1.674. 查表得t0.005(7)=1.895. 算得 t=2.86-2.075-01.67415+14≈0.699<1.895. 因为0.699<1.895, 故不拒绝H0, 认为此药无效. 习题3 据现在的推测,矮个子的人比高个子的人寿命要长一些.下面给出美国31个自然死亡的总统的寿命,将他们分为矮个子与高个子2类,列表如下: 矮个子总统 85 79 67 90 80 高个子总统 68 53 63 70 88 74 64 66 60 60 78 71 67 90 73 71 77 72 57 78 67 56 63 64 83 65 假设2个寿命总体均服从正态分布且方差相等,试问这些数据是否符合上述推陈出推测(α=0.05)? 解答: 设μ1,μ2分别为矮个子与高个子总统的平均寿命,则检验问题为 H0:μ1≤μ2,H1:μ1>μ2, n1=5,xˉ=80.2,s1≈8.585, n2=26,yˉ≈69.15,s2≈9.315, sw=4×8.5852+9.315229≈9.218, n1n2n1+n2≈2.048, t=(80.2-69.15)9.218×2.048≈2.455, α=0.05,t0.05(29)=1.6991, 因t>t0.05(29)=1.6991, 故拒绝H0, 认为矮个子总统的寿命比高个子总统寿命长. 习题4 在20世纪70年代后期人们发现,酿造啤酒时,在麦芽干燥过程中形成致癌物质亚硝基二甲胺(NDMA).到了20世纪80年代初期,人们开发了一种新的麦芽干燥过程,下面给出了分别在新、老两种过程中形成的NDMA含量(以10亿份中的份数计): 老过程 645565564674 新过程 212210321013 设两样本分别来自正态总体,且两总体的方差相等,但参数均未知. 两样本独立. 分别以μ1,μ2记对应于老、新过程的总体的均值,试检验假设(取α=0.05): H0:μ1-μ2≤2,H1:μ1-μ2>2. 解答: 检验假设 H0:μ1-μ2≤2,H1:μ1-μ2>2. 设老过程中形成的NDMA含量为X~N(μ1,σ12), 新过程中形成的NDMA含量为Y~N(μ2,σ22). 已知σ12=σ22=σ2, 但未知,n1=n2=12. 采用t检验法,α=0.05, 算得 xˉ=5.25, yˉ=1.5, s12≈0.9318, s22=1, sw≈0.9828, 拒绝域为 W={xˉ-yˉ-2sw1n1+1n2>tα(n1+n2-2). 查t分布表得t0.05(22)=1.7171, 计算得 5.25-1.5-20.9828×1/2+1/12≈4.3616>1.7171, 故拒绝H0, 认为新、老过程中形成的NDMA平均含量差大于2. 习题5 有两台车床生产同一种型号的滚珠. 根据过去的经验,可以认为这两台车床生产的滚珠的直径都服从正态分布. 现要比较两台车床所生产滚珠的直径的方差,分别抽出8个和9个样品,测得滚珠的直径如下(单位:mm). 甲车床xi:15.0 14.5 15.2 15.5 14.8 15.1 15.2 14.8 乙车床yi:15.2 15.0 14.8 15.2 15.0 15.0 14.8 15.1 14.8 问乙车床产品的方差是否比甲车床的小(α=0.05)? 解答: 以X,Y分别表示甲,乙二车床产品直径. X~N(μ1,σ12),Y~N(μ2,σ22), X,Y独立. 检验假设H0:σ12=σ22,H1:σ22<σ22. 用F检验法, 在H0成立时 F=S12S22~F(n1-1,n2-1). 由已知数据算得 xˉ≈15.01,yˉ≈14.99,s12≈0.0955,s22≈0.0261, n1=8,n2=9,α=0.05. 拒绝域为Rα={F>Fα(n1-1,n2-1)}. 查F分布表得F0.05(8-1,9-1)=3.50. 计算F值F=s12/s22=0.0955/0.0261≈3.66. 因为3.66>3.50, 故应否定H0, 即认为乙车床产品的直径的方差比甲车床的小. 习题6 某灯泡厂采用一项新工艺的前后,分别抽取10个灯泡进行寿命试验. 计算得到:采用新工艺前灯泡寿命的样本均值为2460小时. 样本标准差为56小时;采用新工艺后灯泡寿命的样本均值为2550小时,样本标准差为48小时. 设灯泡的寿命服从正态分布,是否可以认为采用新工艺后灯泡的平均寿命有显著提高(α=0.01)? 解答: (1)检验假设H0:σ12=σ22, H1:σ12≠σ22. 应选取检验统计量F=S12/S22, 若H0真, 则F~F(m-1,n-1); 对于给定的检验水平α=0.01, 查自由度为(9,9)的F分布表得 F0.005(9,9)=6.54; 已知m=n=10,s1=56,s2=48, 由此得统计量F的观察值为 F=562/482≈1.36; 因为F (2)检验假设H0′:μ1=μ2,H1′:μ1<μ2. 按上述关于双总体方差的假设检验的结论知这两个总体的方差未知但相等,σ12=σ22, 所以应选取检验统计量: T=Xˉ-Yˉ(m-1)S12+(n-1)S22m+n-2(1m+1n), 若H0′真,则T~t(m+n-2); 对给定的检验水平α=0.01, 查自由度为m+n-2=18的t分布表得临界值 tα(m+n-2)=t0.01(18)=2.55, 故接受域为{T>-2.55}; 已知m=n=10,xˉ=2460,yˉ=2550,s1=56,s2=48, 由此得统计量T的观测值为T≈-3.86; 因为t<-t0.01(18)=-2.55, 所以拒绝原假设H0′. 而接受备择假设H1′, 即认为采用新工艺后灯泡的平均寿命显著提高. 习题7 随机地选了8个人,分别测量了他们在早晨起床时和晚上就寝时的身高(cm), 得到以下数据: 序号 1 2 3 4 5 6 7 8 早上(xi) 172 晚上(yi) 172 168 180 181 160 163 165 177 167 177 179 159 161 166 175 设各对数据的差Zi是来自正态总体N(μz,σz2)的样本,μZ,σz2均未知,问是否可以认为早晨的身高比晚上的身高要高(α=0.05)? 解答: 设早、晚身高差Z~N(μz,σz2), 检验假设 H0:μz=0,H1:μz>0, zi=xi-yi=0,1,3,2,1,2,-1,2, n=8,α=0.05, 算得zˉ=1.25,s=1.282. 拒绝域为W={zˉ-0s/n>tα(n-1). 查t分布表得t0.05(7)=1.8946. 计算t值 t=1.251.282/8=2.755>1.8946, 故否定H0, 认为早晨比晚上身高要高. 习题8 用5个含铁物质的样本做实验,以决定化学分析和X光分析对铁含量大小是否有差异. 每个样本分为两个小样本,以两种分析方法做对比实验,得到如下数据: 样本i 1 2 3 4 5 X光分析xi 2.0 2.0 2.3 2.1 2.4 化学分析yi 2.2 1.9 2.5 2.3 2.4 假设两总体均服从正态分布,试在α=0.05的显著性水平下,检验两种分析方法所得的平均值是否相同. 解答: 用同一块样本一分为二,用两种分析方法做对比试验,其数据之差即反映了两种分析方法的差异. 设差值Z服从正态分布,Z~N(μz,σz2), 其取值为 zi=xi-yi -0.2 若两种方法无差异,则μz=0. 检验假设 H0:μz=0,H1:μz≠0. 由已知数值算得zˉ=-0.1,sz≈0.141,n=5. 0.1 -0.2 -0.2 0 α=0.05, 查t分布表得t0.025(5-1)=2.776, 所以拒绝域为 W={t>2.776或t<-2.776}. 计算t值 t=zˉ-0sz/n=-0.1-00.141/5≈-1.59>-2.776, 故接受H0:μz=0, 即在α=0.05下,认为两种分析方法所得的均值结果相同. 7.4 关于一般总体数学期望的假设检验 习题1 设两总体X,Y分别服从泊松分布P(λ1),P(λ2), 给定显著性水平α, 试设计一个检验统计量,使之能确定检验 H0:λ1=λ2,H1:λ1≠λ2 的拒绝域,并说明设计的理论依据. 解答: 因非正态总体,故宜用大样统计,设 Xˉ=1n1∑i=1n1Xi,S12=1n1-1∑i=1n1(Xi-Xˉ)2; Yˉ=1n2∑i=1n2Yi,S22=1n2-1∑i=1n2(Yi-Yˉ)2. \\because (Xˉ-Yˉ)-(λ1-λ2)S12n1+S22n2→N(0,1) ∴可选用样本函数u=(Xˉ-Yˉ)-(λ1-λ2)S12n1+S22n2作为拒绝域的检验统计量. 习题2 设某段高速公路上汽车限制速度为104.6km/h, 现检验n=85辆汽车的样本,测出平均车速为 xˉ=106.7km/h, 已知总体标准差为σ=13.4km/h, 但不知总体是否服从正态分布. 在显著性水平α=0.05下, 试检验高速公路上的汽车是否比限制速度104.6km/h显著地快? 解答: 设高速公路上的车速为随机变量X, 近似有 X~N(μ,σ2),σ=13.4km/h, 要检验假设 H0:μ=μ0=104.6,H1:μ>104.6. α=0.05,n=85,uα=u0.05=1.645. 拒绝域W={u=xˉ-μ0σ/n>uα. 由xˉ=106.7,σ=13.4,μ0=104.6,n=85得 u=106.7-104.613.4/85≈1.44<1.645. 因为1.44<1.645, 所以接受H0, 即要α=0.05显著性水平下,没有明显的证据说明汽车行驶快于限制速度. 习题3 某药品广告上声称该药品对某种疾病和治愈率为90%, 一家医院对该种药品临床使用120例,治愈85人,问该药品广告是否真实(α=0.02)? 解答: 设该药品对某种疾病的治愈率为p, 随机变量X为 X={1,临床者使用该药品治愈0,反之 则X~b(1,p), 问题该归结为检验假设: H0:p=0.9,H1:p≠0.9. 由于n=120足够大,可以用u检验法,所给样值(x1,x2,?,x120)中有85个1,35个0,所以 xˉ=1120∑i=1120xi=1120∑i=1851=85120≈0.71, 又p0=0.9, 以之代入统计量U得U的观察值为 ∣u∣=∣0.71-0.9∣0.9×0.1120=6.94>u0.01=2.33, 故拒绝H0, 即认为该药品不真实. 习题4 一位中学校长在报纸上看到这样的报道:“这一城市的初中学生平均每周看8小时电视.”她认为她所领导的学校,学生看电视时间明显小于该数字. 为此,她向她的学校的100名初中学生作了调查,得知平均每周看电视的时间xˉ=6.5小时,样本标准差为s=2小时,问是否可以认为这位校长的看法是对的(α=0.05)? 解答: 检验假设H0:μ=8,H1:μ<8. 由于n=100, 所以T=Xˉ-μS/n近似服从N(0,1)分布,α=0.05,u0.05=1.645. 又知xˉ=6.5,s=2, 故计算得 t=6.5-82/100=-7.5, 否定域W={Xˉ-8S/n<-u0.05. 因为-7.5<-1.645, 故否定H0, 认为这位校长的看法是对的. 习题5 已知某种电子元件的使用寿命X(h)服从指数分布e(λ), 抽查100个元件,得样本均值xˉ=950(h), 能否认为参数λ=0.001(α=0.05)? 解答: 由题意知X~e(λ),E(X)=1/λ,D(X)=1/λ2, 故当n充分大时 u=xˉ-1/λ1nλ=(xˉ-1λ)λn=(λxˉ-1)n(0,1). 现在检验问题为 H0:λ=0.001,H1:λ≠0.001, 样本值 u=(0.001×950-1)×100=0.5,α=0.05,u0.025=1.96. 因∣u∣ 某产品的次品率为0.17, 现对此产品进行新工艺试验,从中抽取400检查,发现次品56件,能否认为这项新工艺显著地影响产品质量(α=0.05)? 解答: 检验问题为 H0:p=0.17,H1:p≠0.17, 由题意知 ?p=mn=56400=0.14, u=(?p-p0)p0q0n=0.14-0.170.17×0.83×400≈-1.597, α=0.05,u0.025=1.96. 因∣u∣ 某厂生产了一大批产品,按规定次品率p≤0.05才能出厂,否则不能出厂,现从产品中随机抽查50件,发现有4件次品,问该批产品能否出厂(α=0.05)? 解答: 问题归结为在α=0.05下,检验假设 H0:p≤0.05,H1:p>0.05. 这是一个单侧检验问题,用u检验法,H0的拒绝域为 U=Xˉ-p0p0(1-p0)n>uα. 已知n=50,p0=0.05,xˉ=450=0.08, 代入U的表达式得 u=0.08-0.050.05×0.9550≈0.97 从选区A中抽取300名选民的选票,从选区B中抽取200名选民的选票,在这两组选票中,分别有168票和96票支持所提候选人,试在显著水平α=0.05下,检验两个选区之间对候选人的支持是否存在差异.