2007年人大统计学专业课初试题参考解答 一、(1)①需假定总体是正态总体。
②不能用数据证明。数据至多只能检验该数据的分布是否接近正态分布,而不能从理论上证明或
肯定它一定就来自正态分布总体,即正态性检验不能提供不拒绝正态性原假设的结论。
③不是。该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,没有概率可言。它是置信度为95%的随机置信区间的一个样本实现,后者才是以95%的概率覆盖真实总体均值。
(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般?30)。 ②不能。“接受零假设”的说法是不妥的,否则就得负责任的给出犯第二类错误的概率,而该检
验的备选假设是“总体均值>4.8克”,据此是无法算出此概率的。所以只能说,在显著水平为0.05时利用该数据进行检验不足以拒绝零假设,不拒绝不等同于接受。
二、(1)不是。因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所以每个员工入样的概率并
不一样,这其实是一种非概率抽样。
(2)①不对。不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能
导致响应误差。调查者不当的引导或者问卷设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产生响应误差,因为这不是我们想要的“实话”。另外,拒绝回答也是一种重要原因。 ②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观的。
(3)整体来说是不独立的。因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工
加班时间一般是独立的。
三、(1)令自驾车上班人数比例为?,由于不能轻易否定原结论,则检验假设为:
?H0:??30% ?H:??30%?1 (2)①令样本量为n,其中驾车上班人数为X,假定X服从二项分布B(n,0.3),X的样本值为x0,
则
p值?P{X?x0}?P{X?0}?P{X?1}?L?P{X?x0}
X/n?0.3H0②检验统计量Z?~N(0,1)。
近似0.3(1?0.3)/n 假定:大样本(X?5, n?X?5);每人驾车上班与否相互独立且服从同参数0-1分布。
(3)统计上显著并不意味着实际上显著,要具体问题具体分析。比如,某箱牛奶经统计检验,含三聚
氰胺的概率显著低于5%,但人们未必敢要这箱牛奶;统计上0.1与0.01有显著差异的时候,实际中未必有多大意义。不过统计显著与实际显著很多时候是一致的。
四、不负责。一个负责任的调查报告应该给出较详尽的内容,主要如下:
①主题; ②调查时间与地点; ③调查主题、客体、对象;
25
④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法; ⑤结论描述; ⑥精度、质量评估; ⑦责任; ⑧参考文献。
五、①无道理。如果进行第二次主成分分析,那么它处理的变量是第一次主成分分析得到的互不相关的主
成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的,这可以通过矩阵运算进行验证,所以做的是无用功。
②变量之间相关系数多数较小(一般指<0.3)的数据不宜进行主成分分析。
③不总是适用。要具体问题具体分析,不能拘泥于某些固有的准则,有时候还要根据问题的实际意义或专业理论知识来分析。
六、①不一定。只有当所有对因变量产生影响的自变量都考虑进来了而且不存在自相关、异方差等情况时,
?才是随机误差。
②不需要。如果要研究最小二乘估计量性质的话,就得假定?满足Guass-Markov条件;若还要进行
2回归系数区间估计和有关假设检验,则要进一步假定?~N(0,?In)。
七、(1)需要选择度量样品或指标相似性的统计量,通常是距离(欧式距离、马氏距离等)或相似系数(夹
角余弦、相关系数等)。然后还要定义样品间、类与类间的距离或相似系数。
(2)①计算n个样品两两间的距离;
②构造n个类,每个类只包含1个样品; ③合并距离最近的两类为1新类; ④计算新类与其它类之间的距离;
⑤判断类的个数是否为1,是则进入第⑥步,否则返回第③步; ⑥画谱系聚类图;
⑦决定分类个数和各类成员。
(3)①把样品粗略分成K类;
②以上述K类的均值为种子,按照到它们距离的远近把所有点分成新的K类; ③反复进行第②步,直至收敛,得到最终的K类。
八、(1)可能是前进法或逐步回归法。由表可知,选元进行了两步,第一步选了自变量Beginning Salary,
第二步增加了另一自变量Employment Category。前进法显然解释得通。至于逐步回归法,因为只进行了两步,而它的第二步不考虑剔除,故可以得到与前进法完全一样的结果。 (2)Sig.就是通常所说的p值,其计算公式为
Sig.?P{F?F0}
这里的F是原假设成立时服从F分布的检验统计量,F0是F的样本值,即表中的1622.118和
997.312。
Sig.的意义就是,原假设为真时,F统计量取其样本实现值以及更极端值的概率,是检验的真实
显著性水平。
2 (3)假定:①?~N(0,?In);②原假设H0:?1??2?0成立。
26
证明:可知F?SSR/p (SSR指回归平方和,SSE指残差平方和)。
SSE/(n?p?1) 由数理统计知识,在假定①成立时,有
SSE/?2~?2(n?p?1)
在假定①②成立时,有
SSR/?2~?2(p)
且SSE与SSR是相互独立的,故
F? 证毕。
SSR/p~F(p,n?p?1)
SSE/(n?p?1)2006年人大统计学专业课初试题参考解答 一、(1)图略。
(2)第二种排队方式平均等待时间
191x2??x2i?(5.5?6.6?L?7.8)?7.0?x1?7.2
9i?19 其中x1为第一种排队方式平均等待时间。 第二种排队方式的方差
27
1912s?(x?x)?[(5.5?7)2?(6.6?7)2?L?(7.8?7)2]?2i29?1i?19?1
22 ?0.51?s12?1.972?3.88 其中s1为第一种排队方式的方差。
可知第二种排队方式比第一种排队方式离散程度小。
(3)我会选择第二种排队方式。以为它的平均等待时间较短,等待时间也较稳定。 二、(1)样本量为50,可认为是大样本,由中心极限定理知
2x??~&N(0,1)
?/50??为样本标准差。 其中x为样本均值,?为总体均值,? 由
P{ 得到95%的置信区间
x???z0.025}?0.95
?/50??/50,x?z0.025??/50) (x?z0.025?代入样本数据计算得
151x??Mifi?(97?2?99?3?101?34?103?7?105?4)?101
50i?15015???(Mi?x)2fi?50?1i?11[(97?101)2?2?L?(105?101)2?4] 50?1 ?1.67 ? 所求置信区间为
(101?1.96?1.67/50,101?1.96?1.67/50)
即
(100.54,101.46)
(2)由表可知样品中超过100g的食品包数占大多数,厂家的观点似乎有一定的可信度,故令检验假
设为
?H0:每袋食品重量?100g ?H:每袋食品重量?100g?1 (3)P值是当原假设为真时,得到所观测结果或更极端结果的概率,是检验的真实显著性水平,可利
28