统计学经典真题及答案2003-2010 下载本文

用P值直接决策或将P值与显著性水平?进行比较,不需要查表,具有可比性;统计量检验是先确定一个显著性水平?从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差。

三、(1)这是无交互作用双因素方差分析问题,由行、列自由度可知行因素是供应商,列因素是车速。 列的F检验值97.68>F临界值8.65,P值0.000002<<显著性水平?=0.01,故拒绝原假设,即认

为车速对磨损程度有显著影响。

(2)同(1)之理,可知不同供应商的轮胎之间的磨损程度有显著差异。 (3)假设:①车速与供应商对轮胎的磨损程度无交互作用;

②车速与供应商不同水平组合形成的总体都是正态总体; ③上述总体方差都相同; ④各观测数据相互独立;

⑤行因素原假设H0:?1?L??5 (?i是总体均值,下同); ⑥列因素原假设H0:?1??2=?3。

四、简单随机抽样是从单元数为N的总体中逐个不放回等概率抽取n个单元或者一次性随机抽出n个单元,

得到简单随机样本。它是最简单的概率抽样方法。适用于总体总量较小或总体方差与任意局部方差基本相当的场合。如果总体总量较大或总体各单元差异较大,就不宜单独使用,因为此时拥有完整的抽样框是困难的,抽样单元也比较分散,会增加调查费用,而且会使总体目标量的估计产生较大误差。所以一般是与其他方法结合使用,比如分层抽样各层内科采用简单随机抽样,整群抽样抽取群、多阶段抽样各阶的抽样也都可采用它。

五、回归模型:y?X???。

假设:①解释变量为非随机变量;

②解释变量不存在多重共线性(即要求设计矩阵X列满秩,样本量大于自变量个数);

2③Guass-Markov假定:E(?)?0, Var(?)??In; 2④正态假定:?~N(0,?In)。

假设不成立之应对:

假设①是回归分析基本要求,否则就不是回归分析;

假设②若不满足,就是多重共线性现象。有多种克服方法,比如剔除不重要自变量,增大样本量,对回归系数进行有偏估计(主成分法、岭回归法、偏最小二乘法等)等等。

假设③若不满足,随机误差?有可能出现异方差现象或自相关现象。若是前者,可通过加权最小二乘法、Box-Cox变换法、方差稳定性变换等方法来克服;若是后者,可通过修改模型、增加自变量、迭代法等方法来克服。

假设④若不满足,则无法进行参数区间估计和假设检验。可以重新观测数据或对数据进行正态性变换。

六、①意义:该模型表示原始变量被表示为公共因子和特殊因子的线性组合,展现了原始变量与公共因子

之间的相关关系,多数的原始变量(p个)被综合少数的新变量(m个,m?p)——公共因子,

起到了降维的效果,简化了问题的复杂性又抓住了问题的主要矛盾。

29

②假设:

a.X是可观测的随机向量,E(X)?0;

b.F是不可观测的随机向量,E(F)?0,D(F)?Im (m?p);

2c. E(?)?0,D(?)?diag(?12,K,?p);

d. Cov(?,F)?0。

七、(1)若不考虑国外部门的影响,GDP被分配于政府、企业、居民三个部门。(可以对原始收入形成、

初次分配、再分配过程进行一定的阐述)

(2)略。 八、(1)参看高敏雪,李静萍.经济社会统计[M].北京:中国人民大学出版社, 2003之P75-P76财务统计分

析,P78经济效益考核体系。

(2)略。

2005年人大统计学专业课初试题参考解答 一、(1)图略。 (2)图略。

(3)由茎叶图和箱线图知,上网者年龄主要集中在20-30岁之间,离散程度较小,呈右偏分布。

二、若采用两两配对的方式检验,会增加犯第一类错误的概率(设检验水平为?,连续作3次两两检验犯

第一类错误的概率为1?(1??)??),另外随着检验次数的增多,偶然因素导致差别的可能性也会增加;而方差分析是同时考虑所有样本,因而排除了错误的累积,减少了偶然因素的不利影响,也简化了检验过程。

三、(1)样本量为36,可视为大样本,考虑如下95%的置信区间

(x?z0.025s/n,x?z0.025s/n) ……………… ①

代入x?107,s?29.96,n?36,z0.025?1.96得

3(97.22,116.78) ……………………… ②

(2)不一定。因为区间②是一个确定的区间,餐馆实际月平均用水量要么在其中,要么不在其中,两

者只有其一。区间②其实是区间①的一个样本实现,区间①是一个随机区间,它有95%的可能性包含餐馆实际月平均用水量。

(3)餐馆管理协会估计的月平均用水量?=100吨是不能轻易否定的,应处于被“保护”位置,则检

验假设为

30

?H0:??100 吨 ?H:??100 吨?1 若拒绝原假设,也就是发生了小概率事件,那么我们有充分的理由支持备择假设;若不拒绝原假

设,并不意味着它就一定正确,只是现有证据不足以拒绝它而已。

(4)用到了中心极限定理。它说的是独立同分布随机变量之和的极限分布是正态分布,揭示了正态分

布的源泉和重要地位,是参数区间估计和假设检验的理论基础。

四、(1)线性回归方程为

??207.9037?1.4378x1?0.8545x2?0.0626x3 y?的意义是,在其它自变量保持不变时,xi每变动一个单位,y 其中第i (i?1,2,3)个回归系数?i?个单位。 就平均变动?i (2)由p值=0.00

0.0271

故第1,2个回归系数显著,第3个回归系数不显著。 (4)多重判定系数

R2?SSR/SST?70090029.08/75375973.33?0.93

它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度。此

处R?0.93,表明回归拟合效果很好。

(5)估计标准误差

2sy?SSE?MSE?480540.39?693.21

n?p?1 sy是y的标准差的股价,反映了y(房地产销售价格)的波动程度。

(6)有用。虽然该变量的系数没通过显著性检验,但并不意味着该变量没用,它在经济解释上可能还

是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。

五、(1)图略。

(2)①按照分层的观点,划分子总体应该是两个子总体之间的差异尽量大,而子总体内部的差异尽量

小,故划分方式为:

第一个子总体为{Y1},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,}。

②但如果要进行精度的计算,不能出现一个总体只含有一个单元的情况,故为了计算精度,下面的划分方式也是可以接受的: 第一个子总体为{Y1,Y8},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y9,}。 ③此外也可以应用多元统计中的系统聚类法形成两个子总体:

31

第一个子总体为{Y1},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,}。

(3)上述数据出现了离群值,它是调查数据里的极端值,会于其它数据明显不一致。其起因一般有三

个:

①被调查者回答有误;

②调查者记录有误;

③数据本身的差异。当总体呈偏态分布时,这种情况就可能发生。例如数据是不同公司的市场份额,那么少数公司占整个销售额的绝大部分,其余公司占小部分的情况是很普遍的。 但是,题目强调了给定的数据是总体的全部真实数据,那么第①、②种情况是不存在的,所以应该是第③种情况。

(4)总体均值

19Y??Yi?2.53

9i?1 总体方差

19S?(Yi?Y)2?6.50 ?9?1i?12 (5)在本例应用的四种方法:

简单随机抽样的不足之处在于估计精度略低。

分层抽样的不足之处在于如果按照最优的层内差距尽量小、层间差距尽量大的原则((2)之①)分层会导致精度无法估计,故只能选择次优分层方法((2)之②)。

整群抽样的不足之处在于无法通过分群使群间差异尽量小,因为Y1在任何一个群中都会使该群

与其它群差异较大。此外整群抽样的估计精度一般也比简单随机抽样低;系统抽样的不足之处在于估计量方差的估计相对困难。

综上所述,尽管各种抽样方式各有不足之处,但是结合下面一道问题,我认为简单随机抽样、分层随机抽样和系统抽样的不足之处都可以接受,但是整群抽样的不足之处相对显著,而且整群抽样在下面一道题里计算也非常困难,所以整群抽样最不合适。

(6)①简单随机抽样

可能的样本:(Yi,Yj), 1?i?j?9; 样本均值:E(y)?Y?2.53; 样本方差:V(y)?1?f2S?2.53。 n②分层随机抽样

分层方式为(2)之②。

可能样本:(Yi,Yj), i?1,8; j?2,3,4,5,6,7,9; 样本均值:E(yst)?Y?2.53; 样本方差:V(yst)??Wh2h?1L1?fh2Sh?0.33。 nh

32