统计学经典真题及答案2003-2010 下载本文

人大统计学考研历年真题精华版(98-10)

2010年人大统计学专业课初试题

2009年人大统计学专业课初试题

一、有两个正态总体,均值和方差未知,但已知方差相等。从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。如何检验第一个总体的均值是否大于第二个总体的均值?

1

二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。

三、周期过程

Xt?Acos(?t??),其中频率?和振幅A都是常数,而相位?是一个在区间[-π,π]上服从

均匀分布的随机变量。问{

Xt}是否平稳?说明原因。

四、把一个总体分为三层,各层的权重和预估的比例见下表。待估计的参数为总体比例。如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。(假设各层总体单位数量

层 1 2 3 总体权重0.5 0.3 0.2 Wh?Nh/NNh都充分大,忽略“有限总体校正系数”)

预估的层内总体比例 0.5 0.7 0.6

五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第10题是一样的。

六、若有线性回归模型

yt??0??1xt??t (t?1,2,K,n),其中

E(?t)?0,

E(?t2)??2xt2,

E(?t?s)?0 (t?s),则

(1)该模型是否违背古典线性回归模型的假定?请简要说明。 (2)如果对该模型进行估计,你会采用什么方法?请说明理由。

七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。假定40只白鼠的初始活动状态相同。请详细阐述你用何种方法分析安眠药的效果?

八、某大学从教师中抽取一个随机样本进行满意度调查。1分表示非常不满意,100分表示非常满意。数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响,则

(1)你会选择什么分析方法?简述你的分析思路(可用公式说明,不需计算结果)。 (2)要采用该分析方法,数据必须满足哪些几本假定?请加以说明。

职称 教授 副教授 男 调查人数 30 30 满意度 88 83 女 调查人数 30 30 满意度 82 80 2

讲师

30 74 30 75 2008年人大统计学专业课初试题

一、(10分)07年香港一则报道说:“随着经济的增长,香港低收入家庭的比例在增长,其中低收入的家庭是指低于中位数的家庭。”请你从统计的角度对该报道做简要评论。 二、(10分)经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫方差分析呢?请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。 三、(10分)如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认为可以建立什么样的预测模型?请你写出模型形式并加以简要说明。 四、(30分)食品厂家说:净含量是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验。

(1)如果厂家自己检验,你认为提出什么样的原假设和备择假设?并说明理由;

(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备择假设?并说明理由; (3)消协抽取20袋,数据如下(略),得p值为0.4297,在α=0.5的显著水平下,检验假设意味着什么?p值的含义是什么?

(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际平均重量是否在该区间?为什么? 五、(15分)在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。 (1)请具体指明这些假设有哪些?

(2)说明这些假设所发挥的主要作用; (3)请讨论这些假设最终产生的影响。 六、(15分)在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只有三种,并不包括整群抽样,请说明你赞同与否并详列理由。 七、(30分)叙述贝叶斯判别分析的原理(包括完整的假设)并说明: (1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点? (2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同? 八、(30分)在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,要考虑许多因素。 (1)以大坝为例,概略说明需考虑的主要因素;

(2)大坝高度通常利用长期洪水历史记录数据,依据几十年一遇的标准确定,请写出计算坝高详细的具体步骤。(画出框图,并尽量避免过多使用文字)

2007年人大统计学专业课初试题

3

一、(20分)下面是一种零件误差的数据(单位:克):

6.1 4.7 6.5 6.2 7.7 6.4 5.5 7.1 6.1 5.3 5.7 6.1 5.3 4.0 4.8 3.2 3.9 1.9 4.9 3.8 5.3 2.6 5.3 5.5 5.8 2.7 6.8 7.4 5.6 3.3

(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法;

(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么? 二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。请回答以下问题:

(1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么?

(2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?随机误差是不是可以避免的?

(3)这些员工的加班时间是否独立?如果不是,原因可能是什么? 三、(20分)某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超过30%。但一家研究机构则认为自驾车上班的人数比例达不到这一水平。为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。

(1)请写出检验的原假设和备择假设;

(2)请对小样本情况写出计算p值的公式,并论述你所依赖的分布。对大样本情况,写出检验统计量的公式以及使该统计量有意义所需要的假定的条件;

(3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著? 四、(10分)在对某项产品的认可的抽样调查报告中,如果报告仅仅说,“对该产品认可的有90%”,那么该报告是否负责?一个负责任的调查报告应该给什么有关信息? 五、(10分)对于主成分分析,有人在进行了主成分分析之后,对得到的主成分又进行了第二次主成分分析,以得到更加精确的结果。请问,这样做是否有道理?请加以说明。什么样的数据不适宜于主成分分析?选择那些主成分累计方差贡献率为70-80%之类的准则是不是总是适用?为什么? 六、(20分)回归模型y=β0+β1x1+β2x2+…+βpxp+ε中的ε一定是随机误差吗?如果回答是否定的,讨论在何种情况下,答案是肯定的?此外,最小二乘回归是不是需要对误差项作出假定?如果不是,那么在什么情况下需要对误差项作出假定?作什么假定? 七、(25分)对于聚类分析,请回答以下问题: (1)分层聚类前,需要对什么进行选择?

4

(2)描述分层聚类分析的详细步骤;

(3)描述K均值(快速)聚类分析的详细步骤。 八、(25分)应用多元线性回归模型y=β0+β1x1+β2x2+…+βpxp+ε,如果一个SPSS回归分析的结果如下表所示: ANOVA Model 1 Regression Residual Total Regression Residual Total Sum of Squares df Mean Square F Sig. .000a 106831048750.124 1 106831048750.124 31085446686.216 472 65858997.217 1622.118 137916495436.340 473 111136313278.118 2 55568156639.059 26780182158.221 471 56858136.217 997.312 137916495436.340 473 2 .000b a. Predictors:(Constant),Beginning Salary

b. Predictors:(Constant),Beginning Salary,Employment Category 则:

(1)表中所用选择自变量的方法可能是什么? (2)表中的最后一个Sig.如何求得?意义是什么?

(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条件,并对该统计量服从F分布予以证明。

2006年人大统计专业课初试题

一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下: 5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图; (2)比较两种排队方式等待时间的离散程度;

(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。 二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:

每包重量/g 96-98 98-100 100-102 102-104 104-106 包数 2 3 34 7 4

5

合计 50

已知食品包重量服从正态分布,要求:

(1)确定该种食品平均重量95%的置信区间;

(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设; (3)利用P值进行检验和利用统计量进行检验有什么不同? (z0.05=1.645, z0.025=1.96,t0.05=1.69,t0.025=2.03) 三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:

差异源 行 列 误差 总计

SS 1.55 3.48 0.14 5.17

df 4 2 8 14

MS 0.39 1.74 0.02

F 21.72 97.68

P-value 0.000236 0.000002

F crit 7.01 8.65

(1)不同的车速对磨损程度是否有显著影响?

(2)不同供应商的轮胎之间磨损程度是否显著差异? (3)在上面的分析中,你都做了哪些假设? 四、(15分)说明什么条件下适合采取简单随机抽样? 五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。 六、(20分)解释因子模型 X=AF+ε

的意义并写出模型的假设。 七、(15分)以下是从《中国统计年鉴-2005》摘引的资料,要求: 单位:元/人

人均国内生产总值 城镇居民人均可支配收入 农村居民人均纯收入 2003年 9111 8472 2622 2004年 10561 9422 2936

(1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因; (2)计算各指标的动态变动率(不考虑价格变化),对其结果予以简要分析。 八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,要求: (1)设计并计算反映企业经济效益的指标;

6

(2)对经济效益指标的动态变化状况做简要分析。

工业总产值(亿元) 工业增加值(亿元) 企业单位数(个) 资产总计(亿元) 流动资产年平均余额(亿元) 固定资产净值年平均余额(亿元) 负债合计(亿元) 产品销售收入(亿元) 产品销售成本(亿元) 产品销售税金及附加(亿元) 利润总额(亿元) 本年应缴增值税(亿元) 全部从业人员年平均人数(万人)

2005年人大统计专业课初试题

一、(15分)一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如下:

15 19 22 24 30 16 19 22 24 31 17 20 23 25 34 18 20 23 27 38 19 21 23 29 41

(1)画出该组数据的茎叶图; (2)画出该组数据的箱线图;

(3)根据茎叶图和箱线图说明上网者年龄分布的特征。 二、(15分)设有三个总体的均值分别为:μ1,μ2,μ3。要检验三个总体的均值是否相等(α=0.05),我们为什么不先将它们简单地配对,即H0:μ1=μ2,H0:μ1=μ3,H0:μ2=μ3,,然后分别进行检验,而是采用方差分析的方法? 三、(20分)某城市的餐饮管理协会估计,餐馆的月平均用水量为100吨,一家研究机构认为实际用水量要高于这个数字,该研究机构随机抽取了36家餐馆,记录了每个餐馆的月用水量(单位:吨),经过初步计算得到样本数据的部分描述统计量如下:

2003年 142271 41990 196222 168808 71488 66008 73414 143172 118638 2049 8337 5488 5749 2004年 187221 54805 219463 195262 86885 73849 115529 187815 157071 2467 11342 6396 6099

7

平均 107 标准误差 4.99 样本标准差 29.96 样本方差 897.77

(1)确定餐馆月平均用水量95%的置信区间;

(2)餐馆实际月平均用水量在你所建立的置信区间里吗?请说明原因;

(3)如果要检验研究机构的看法是否正确,应该如何建立原假设和备择假设?请谈谈拒绝和不拒绝原假设的含义;

(4)在上面的估计和检验中,你使用了统计中的哪一个重要定理?请简要解释这一定理。 (z0.05=1.645, z0.025=1.96,t0.05=1.69,t0.025=2.03) 四、(20分)一家房地产评估公司想对某城市的房地产销售价格(y)与地产评估价值(x1)、房产评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格做合理预测。为此,收集了15栋住宅的房地产评估数据,经回归得到下面的有关结果(α=0.05):

方差分析 回归 残差 总计

Intercept X Variable 1 X Variable 2 X Variable 3 Coefficient 207.9037 1.4378 0.8545 0.0626 标准误差 617.0486 0.5645 0.2663 0.0656 t Stat 0.3369 2.5472 3.2091 0.9538 P-value 0.7425 0.0271 0.0083 0.3607 df 3 11 14 SS 70090029.08 5285944.25 75375973.33 MS F Significance F 0.00 23363343.03 48.62 480540.39

(1)写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程,并解释各回归系数的意义;

(2)检验回归方程的线性关系是否显著; (3)检验各回归系是否显著;

(4)计算多重判定系数R2,并说明它的实际意义; (5)计算估计标准误差sy,并说明它的实际意义;

(6)你认为使用面积(x3)在预测销售价格时是否有用?试说明理由。 五、(42分)假设一个已知简单总体的全部真实数据列于下表:

8

编号 Yi 1 2 3 4 5 6 7 8 9 9.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9

(1)绘出散点图;

(2)如果根据Y的数值将总体分成两个子总体,最好的分发是什么? (3)举例说明上表数据所反映的现象可能是什么? (4)计算出Y的总体均值Y和总体方差S2;

(5)四种基本抽样方式中最不适合上述总体情形的是哪一种?并说明理由;

(6)对其余三种基本抽样方式,假定n=2,分别列出每一种方式所对应的全部可能样本,并计算样本均值的数学期望和方差;

(7)计算每一种方式在此情形下的设计效应,并说明其意义。 六、(8分)说明抽样里的回归估计与一般回归分析方法的联系与区别。 七、(6分)请解释下面的说法:“生产核算的范围决定了收入分配和收入使用核算的范围”。 八、(9分)A、B两个地区的贫困线均为年收入1000元。A地区有11%的人年收入900元,9%的人年收入200元;B地区有1%的人年收入900元,9%的人年收入500元。 (1)根据上述数据,计算两地区的贫困者比重和贫困深度;(2分)

(2)请根据贫困者比重和贫困深度对两地区贫困状况进行简要的比较分析;(4分)

(3)你觉得这两个指标能够准确反映两地区贫困状况的差异吗?如果不能,应当如何改进?(3分) 九、(15分)下面是某国某核算年度的国际收支平衡表(单位:亿元):

一、经常账户 A、货物与服务 B、收益 C、经常转移 二、资本与金融账户 A、资本账户 B、金融账户 三、储备资产 四、误差与遗漏 差额 205 230 ( ) -65 ( ) -40 ( ) -125 -10

(1)在表中括号内填上适当的数字;(3分) (2)请解释储备资产所对应的-125亿元的含义;(3分)

(3)请根据表中数字分析该国国内生产总值、国民总收入和国民可支配收入三者之间的关系;(6分) (4)根据表中数字,对于该国当年国内的投融资状况你能得出何种结论?(3分)

9

2004年人大统计专业课初试题

本试卷分为两部分,一部分为必答题,计105分,一部分为选答题,计45分。

第一部分 必答题

1.(25分)下面是A、B两个班学生的数学考试成绩数据: A班:

55 76 66 85 75 62 79 73 93 76 67 85 74 61 78 71 92 79 65 83 73 57 77 70 90 75 63 81 73 96 B班:

34 71 56 90 66 48 81 58 96 71 55 85 62 44 79 57 95 68 54 84 61 39 73 57 94 68 51 82 61 100

(1)将两个班的考试成绩用一个公共的茎制成茎叶图,比较两个班考试成绩分布的特点; (2)两个班考试成绩的描述统计量如下,试进行比较分析:

A班 平均 75 中位数 75 众数 73 标准偏差 10.44 样本方差 108.90 峰值 -0.35 偏斜度 0.11 极差 41 最小值 55 最大值 96 B班 平均 68 中位数 67 众数 57 标准偏差 17.64 样本方差 311.10 峰值 -0.76 偏斜度 0.11 极差 66 最小值 34 最大值 100

(3)要判断考试成绩是否有离群点,可使用哪些方法?

(4)要判断考试成绩是否服从正态分布,可使用那些描述性方法?

2.(25分)某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每人使用其中的一种方法。通过Excel进行方差分析得到下面的部分结果:

方差分析表

差异源 SS df MS F P-value F crit

10

组间 组内 总计 3836 29 210 — — — 0.245946 — — 3.354131 — — (1)完成上面的方差分析表;

(2)若显著性水平α=0.05,检验三种方法组装的产品数量之间是否有显著性差异; (3)在上面的方差分析中包含了哪些基本假定? (4)简述多重比较的前提和作用。

3.(20分)一袋中有黑、白两种球,p表示白球所占的比例,待检验假设为 H0:p=1/2;H1:p=1/5。

从袋中任取4个球(放回抽样),当白球数小于2时,拒绝原假设。试给出以下内容: (1)总体及其分布; (2)样本量n; (3)拒绝域;

(4)第一类错误的概率。

4.(15分)试举例说明方差分析中效应的意义和用效应如何表达它的数学模型。

5.(20分)试证明正态线性回归模型其回归系数的最大似然估计与最小二乘估计相同。

第二部分 选答题(在下面五道题中任选三道题)

6.(15分)下表是中国1992和2002两个年份国民经济核算的部分资料。要求: (1)根据资料,计算反映经济发展状况的基本总量指标和结构比例指标; (2)根据计算结果,对10年间中国经济发展特征及其变化予以简要说明。

中国国民经济核算有关资料 单位:亿元

第一产业增加值 第二产业增加值 第三产业增加值 最终消费 货物服务净出口 来自国外要素收入净额 平均人口总数(亿人) 1992年 5800 11700 9138 15952 276 14 11.64 2002年 16117 53540 35133 62365 2794 -1237 12.80

7.(15分)2003年7月,中央政府和香港特区政府签定了简称CEPA的《内地与香港关于建立更紧密经贸关系的安排》。其中内容之一是自2004年起,273种香港原产货物进入内地市场实行零关税;内容之二是放宽香港企业对内地投资的限制,包括投资的行业、注册资本数额和资质条件等。可以预见,由此将大大促进香港对内地的贸易和投资活动。

要求:根据上述贸易和投资两方面的内容,应用国际收支平衡表原理,说明中国未来国际收支所产生的影响。(说明:根据目前中国国民经济核算,仍将香港作为“非常住单位”,即作为“境外”看待。)

8.(15分)假定某地区人口和劳动力就业统计数据如下表所示,要求:

11

(1)计算有关指标,描述该地区人口基本结构状况; (2)计算有关指标,描述该地区人口变动状况; (3)计算有关指标,描述该地区劳动就业状况。 单位:万人

年末常住人口数 其中:女性人口数 其中:15岁及以上人口数 其中:城市人口数 其中:文盲人口数 当年平均常住人口数 当年出生人口数 当年死亡人口数 当年净迁出人口数 年末社会劳动力资源总数 年末就业人数 年末失业人数 指标数值 1284 623 990 502 115 1280 27 9 1 986 860 55

9.(15分)对(30)的1000元3年定期寿险,死亡年末给付,保费在两年内每年缴一次。已知预定利率为5%,q30=0.02,q31=0.03,q32=0.04,,假设费用发生在保年初,各年费用为:

年份 每份保单 每1000元保额 占总保费的比例 1 10 2.5 0.10 2 5 1.0 0.05 3 5 1.0 —

赔付处理费发生在死亡年末,每1000保额为10元,假设有退保。计算: (1)每年总保费;

(2)第一年在总保费下的责任准备金。

10.(15分)某人在25岁时计划每年初存入200元建立个人账户,如果他在60岁退休,存款利率假设恒定为4%。

(1)求退休时个人账户的累计额;

(2)如果个人账户累计额在退休后以固定年金方式在30年内每月领取一次,求每月可以领取的数额。

2003年人大统计专业课初试题

一、(15分)考虑两个国家之间按GDP进行经济比较。假定在既定汇率水平上,甲国GDP与乙国GDP之间的比例为1:20。一场金融危机放生之后,如果甲国货币相对乙国货币贬值了50%,那么,在新的汇率水平上,两国GDP之间的比例将变化为1:40。请问:我们能否根据比较结果说甲国的经济发展水平下降了50%?这种比较所包含的统计方法问题是什么?

12

二、(15分)假定一时期国际收支平衡表上“储备资产变动”一项为正差额100亿元,据此,应用国际收支平衡表原理判断当期国际收支的顺、逆差状况。 三、(30分)以下是某经济总体1985和2001两年份城镇居民住户部门的调查资料。要求: (1)列表计算各年城镇住户部门的原始收入、可支配收入和最终消费支出;(15分) (2)计算有关指标,比较说明城镇居民住户部门经济活动特征的变化。(15分)

营业盈余(经营净收入) 各种收入: 1.工资及补贴收入 2.其他劳动收入 3.利息红利收入 4.其他财产收入 5.养老金和离退休金收入 6.社会救济收入 7.其他转移收入 8.借贷收入 9.出售资产收入 各种支出: 1.食品支出 2.衣着支出 3.医疗教育交通通讯支出 4.居住及家庭耐用消费品支出 5.购房和建房支出 6.交纳各种社会保障基金 7.交纳所得税 8.其他各种转移支出 9.借贷支出 1985年 10 549 63 3 1 50 32 18 25 12 351 98 86 137 22 0 0 10 59 2001年 400 4277 422 101 133 805 321 547 123 143 2014 533 1490 1271 903 324 75 52 608 四、(30分)一家种业开发股份公司研究出三个新的小麦品种:品种一、品种二、品种三。公司为研究不同品种对产量的影响,选择了四个面积相同的地块进行试验,分别为:地块一、地块二、地块三、地块四。经过试验获得产量数据,经分析得到下面的方差分析表(α=0.05):

差异源 平方和 自由度 均方 统计量 P-值 临界值 (SS) (df) (MS) (F) 品种 ______ 2 ______ ______ 0.0178 4.4590 地块 2669290 4 ______ ______ 0.0000 3.8379 误差 ______ 8 296.1 总计 2675774 14

(1)将方差分析表中划线部分的数值补齐;(6分) (2)分析小麦品种对产量的影响是否显著;(4分) (3)分析不同地块对产量的影响是否显著;(4分)

(4)在产量变动的差异中,被品种所解释的百分比是多少?(3分)

13

(5)在产量变动的差异中,被地块所解释的百分比是多少?(3分) (6)上面的分析包含哪些假定?(10分) 五、(30分)统计资料表明,某地区职工年人均病假天数为5.1天。某公司从本公司职工中随机抽取了46名职工作为样本,测得其平均病假天数为7天,样本标准差为2.5天。公司领导想知道本公司职工是否比其他单位的职工更容易生病。

(1)公司领导感兴趣的原假设和替换假设是什么?(3分)

(2)若令α=0.05,请用假设检验的方法帮助公司领导作出判断(写清检验步骤,并作示意图)。(10分)

(zα/2=1.96, zα=1.645,tα/2(45)=2.0141,tα(45)=1.6794) (3)在假设检验中,P值代表什么含义?(6分) (4)在本例中,P=0.001说明了什么?(3分)

(5)用区间估计的方法找出该公司职工病假天数与其他职工病假天数显著不同的临界点。(8分) 六、(30分)关于回归分析讨论下列问题: (1)画出回归建模步骤的流程图;(7分) (2)简要描述各个步骤的内容;(8分)

??(X?X)?1X?y?)??2(X?X)?1?D(? (3)设是多元回归方程参数的最小二乘估计,证明;

(8分)

?)??2(X?X)?1D(? (4)根据,结合一元线性回归,你能看出对建模有指导意义的什么信息(7分)

人大统计学考研 历年真题参考解答 精华版(03-09)

14

2009年人大统计学专业课初试题参考解答

2一、设第一、二个总体均值分别为?1与?2,样本均值分别为X1与X2,样本方差分别为S12与S2。

1.构造原假设和备择假设

H0:?1??2?0?H1:?1??2?0

2.构造统计量。由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量:

t?(X1?X2)?(?1??2)

11Sp?n1n2其中

2(n1?1)S12?(n2?1)S215?64?35?49S???53.5n1?n2?215?35 2p则

t?24?204?4?6??1.8201 7.3144?7.21111153.5(?)16363.计算临界值。给定显著性水平?,如??0.05,计算临界值t?(n1?n2?2)?t0.05(50),由于50>30,则t0.05(50)?z0.05?1.645。

4.做出决策。由于t?1.8201?1.645,故拒绝原假设,即认为?1??2。

'?1'二、1.对于回归模型Y?X???,?的最小二乘估计为:??(XX)Xy。现在来看它的期望

)E(?)?E[(X'X)?1X'y]?(X'X)?1X'E(y) ?(X'X)?1X'E(X???) ?(XX)X(X??E(?)) ???(X'X)?1X'E(?)))从上面可以看出,要使?为无偏估计,则必须满足E(?)?0,所以只有当E(?)?0时,?才为有

偏估计。

'?1')

15

2.使E(?)?0的原因:

①遗漏了关键自变量,即全模型正确时,而我们误用了选模型。用选模型建模时,使得误差项中含有遗漏自变量的信息,从而期望不为零。证明过程如下

??p?证明:假设正确模型为Y?X???,令X?(Xp,Xt),????。而我们选用了模型

??t?)Y?Xp?p??来估计?,得到?p?(Xp'Xp)?1Xp'y,则

)E(?p)?E[(Xp'Xp)?1Xp'y] ?(Xp'Xp)?1Xp'E(y) ?(Xp'Xp)?1Xp'X???p? ?(XpXp)Xp(Xp,Xt)????t? ??p?(Xp'Xp)?1Xp'Xt?t'?1'

从上式可以看出?p是?p的有偏估计。

②加入了无关紧要的自变量,即选模型正确,而我们误用了全模型,这样会过度提取误差项信息,使得估计量有偏。证明过程和上式差不多。这里省略。

3.解决办法:在选择自变量时,对因变量有重要影响的自变量尽量考虑全面,但自变量又不是越多越好,应该去掉那些对因变量没有影响或者影响很小的自变量。具体实施办法有前进法、后退法、逐步回归法等。

三、是平稳过程,证明如下

)E(Xt)?E(Acos(?t??))??Acos(?t??)???1d?2??11 ?Asin(?t??)?[Asin(?t??)?Asin(?t??)]

??2?2? ?0Var(Xt)?Var(Acos(?t??))?E((Acos(?t??))2)?[E(Acos(?t??))]2 ?E((Acos(?t??))2)??A2cos2(?t??)???1d?2?

2?A? 11A222 ?[A???cos(2?t?2?)d?]?[A??sin(2?t?2?)]????2?22?4A2 ???2

16

?(t,s)?cov(Xt,Xs)?E(XtXs)?E(Xt)E(Xs) ?E(XtXs)??A2cos(?t??)cos(?t??)???1d?2?1?A2 ?[cos(?t??s)?cos(?t??t?2?)]d?

2????2?1A2A2 ?[cos(?(t?s))?sin(?t??s?2?)]??2?24A2 ?cos(?(t?s))4?即协方差函数只与t?s有关。

由平稳过程的定义知,题中所定义的过程为平稳过程。

四、1.先来估计各层总体的方差。在比例估计中定义

?1, 第i个单元具有所考虑的特征 Yi?? (i?1,2,...,N)0, 其它?则可得如下关于总体方差的式子

N1N1NN222(Y?Y)?[Y?N(Y)]?Y(1?Y)?PQ S??i?iN?1i?1N?1i?1N?1N?12从上式我们可以估计出各层的方差

s12?N1p1(1?p1)?0.5?0.5?0.25, s1?0.5 N1?1N2p2(1?p2)?0.7?0.3?0.21, s2?0.4583 N2?1N3p3(1?p3)?0.6?0.4?0.24, s3?0.4899 N3?1Nk

。) Nk?1

2s2?2s3?(由于Nk很大,故省略系数

2.考虑样本容量为600的简单随机抽样的方差。在简单随机抽样下总体比例的估计量为

p?估计量方差的估计值为

300?0.5?180?0.7?120?0.6?0.58

6001?fpq0.58?0.42pq???0.0004067n?1n?1599

'v(p)?

3.考虑奈曼分配的情形。设抽取的样本容量为n,样本量在各层的分配公式为

nh?n'WhSh?WShh?1L

h

17

代入数据得到

0.5?0.5n'?0.5149n'

0.25?0.3?0.4583?0.2?0.48990.3?0.4583n2?n'?0.2832n'

0.25?0.3?0.4583?0.2?0.48990.2?0.4899n3?n'?0.2019n'

0.25?0.3?0.4583?0.2?0.4899n1?则奈曼分配的估计量方差的估计为

Lphqhpqv(pst)??Wh(1?fh)??Wh2hhnh?1h?1nh?1h?12L0.250.210.24 ?0.09??0.04?'''0.5149n?10.2832n?10.2019n?10.06250.01890.00960.2356 ????0.5149n'?10.2832n'?10.2019n'?1n' ?0.25?4.计算n'。要使奈曼分层抽样与简单随机抽样有相同估计量方差,则必须满足

v(p)?v(pst)

解得

n?579

五、略。

六、1.来看?t的性质

'0.2356?0.0004067 n'E(?t)?0

var(?t)?E(?t2)?[E(?t)]2??2xt2

cov(?t,?s)?E(?t?s)?E(?t)E(?s)?0(t?s)

由上可看出,该模型违背古典线性回归模型的方差一致性假设,残差存在异方差性。

2.加权最小二乘法。当残差存在异方差时,如果还是用最小二乘法估计参数,会带来严重的后果,如下

①参数估计值虽是无偏的,但不是最小方差线性无偏估计; ②参数的显著性检验失效;

③回归方差的应用效果极不理想。

鉴于此,我们必须寻求适当的方法对原来的估计方法进行变换,使变换后的估计方法满足同方差性假设。由于异方差性导致离差平方和

18

Q(?0,?1)??(yi?E(yi))2i?1n

中的各项的比重不一样,地位不平等,导致使用普通最小二乘法时,回归线就被拉向方差大的项。而在此题中,残差系列与自变量观测值的平方成正比,即

var(?t)??2xt2

2因此当我们在平方和各项前面加入一个权重wi?1/xi时,各项的地位就平等了。从而克服了普通

最小二乘法的弊端,这就是加权最小二乘法。它实施起来简单,原理清晰,是解决本题最好的方法。

七、1.数据分析。在本题中有三个影响因素:时间、活动空间、安眠药。因变量是老鼠的活动状态,可以

把它看成数值型变量。要研究的是时间、活动空间、安眠药对老鼠活动状态是否有显著的影响。我的分析思路是:

首先,我把数据列成如下的表格

吃药后立即记录的数据

关在一起 分开喂养 吃药 不吃药 x11j x21j x12j x22j 吃药后一小时记录的数据 关在一起 分开喂养 吃药 不吃药 y11j y21j y12j y22j

吃药后两小时记录的数据 关在一起 分开喂养 吃药 不吃药 z11j z21j z12j z22j 其中j?1,2,...,10表示老鼠的编号,每个组有10只老鼠。x, y, z代表时间。

其次,对每个表格的数据进行有交互作用的方差分析,通过分析得到活动空间、安眠药是否对老鼠活动状态有显著的影响,也可得到它们的交互作用是否对老鼠活动状态有显著的影响。通过在三个观测时间上各自的分析,最后得到安眠药在那个时间点上的效果最好。 2.分析步骤。(和第八题的步骤差不多,这里就不写了。)

注:上述问题属于有重复测量的方差分析问题,它与一般方差分析的不同之处在于它的时间观测值数据之间不是独立的、是相关的。这里将时间分开来处理,似乎有所不妥,特此说明,仅供参考。

19

八、1.本题中职称和性别都是属性变量,满意度是数值型变量,要研究属性变量对数值型的影响,很自然

会想到用方差分析方法,而本题中我们用无交互作用的双因素方差分析方法。

①问题提出:在分析一个属性变量对一个数值型变量的影响时,我们把属性变量的各个水平各看成一个总体,然后比较这几个总体的均值,看它们是否有显著的差异,如果有显著的差异,则说明在各个水平下得到的数据之间是有差异的,即认为属性变量对数值型变量有显著影响。在本题中,比如我们要研究性别对满意度有无显著影响,我们的思路是把男、女两个水平各看成一个总体,然后根据数据设计一种方法检验它们的均值有无显著的差异,如果没有差异,那么我们认为两总体间的数据没有什么区别,即满意度差异不大,也即性别对满意度没有影响。 ②基本思想:在方差分析中我们假定因素的各个水平服从方差相等正态分布,这样在每个总体下抽取样本,由于抽样的随机性,会导致数据的不同,且各水平之间数据也会不同,我们现在要研究的各水平数据的差异性能完全由抽样的随机性解释吗?如果可以,我们认为个水平均值没有差异;否则,就有差异。具体的做法是,我们引进组内误差和组间误差两个概念,它们分别用组内平方和与组间平方和诠释。如果组间平方和与组内平方和经过平均后的数值相接近,则说明数据间的差异是由抽样的随机性引起的,不存在系统性差异,即属性变量对数值型变量没有影响。 ③分析步骤 a.提出假设

??H0:?1??2, 性别对满意度没有影响行因素假设??

??H1:?1??2?????性别对满意度有影响??H0:?1??2??3?????职称对满意度没有影响列因素假设??

H:?,?,?不全相等?????职称对满意度有影响??1123b.构造检验的统计量

总误差平方和 SST?kr??(xi?1j?1kij?x)2

行因素误差平方和SSR???(xi?1j?1krri??x)2,均方误差 MSR?SSR k?1SSC r?1列因素误差平方和SSC???(x?j?x)2,均方误差 MSC?i?1j?1剩余因素误差平方和SSE?SST?SSR?SSC,均方误差 MSE?F统计量 FR?SSE

(k?1)(r?1)MSRMSC~F(k?1,(k?1)(r?1)), FC?~F(r?1,(k?1)(r?1)) MSEMSEc.统计决策。给定显著性水平?,如果FR?F?,则拒绝原假设,说明行因素对观测值有显著的影响;如果FC?F?,则拒绝原假设,说明列因素对观测值有显著的影响。

2.假定:①各个水平对应的总体都服从正态分布;

20

②各个总体的方差相同; ③各观测值是独立的;

④性别和职称对满意度的影响是独立的,即它们之间没有交互作用。

2008年人大统计学专业课初试题参考解答

一、用中位数来描述家庭收入数据的集中趋势有优点亦有不足。

1.中位数是指一组数据排序后处于中间位置的变量值,不受极端值影响,对偏斜程度较大的顺序或数

值型数据代表性较好,所以它能够排除过高收入或过低收入带来的不良影响。 2.作为描述数据集中趋势的指标,中位数的应用远不及平均值广泛,中位数只是一组数据中的一个值,

因而对整个香港家庭收入信息有较大浪费;而平均值能包含所有收入信息,而且具有优良的数学性质,不过它易受极端值的影响,主要适用于测度偏斜度不大的数据。

3.用中位数作为判别低收入的指标,那么低收入的比例一直都是50%,这显然与“比例在增长”相矛

盾。

二、方差分析表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相

等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源,所以叫做方差分析。

观察到的数据一般是参差不齐的,我们用SST(总平方和)度量数据总的变异,将它分解为可追溯到来源的部分变异SSE(组内平方和)与SSA(组间平方和)之和,若后者的平均MSA(组间均方)明显比前者的平均MSE(组内均方)大,就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。所谓基本假定就是,各总体服从正态分

21

布;各总体方差相同;各观测值相互独立。

三、有多种预测模型可供选择:

1.时间序列分解模型

①加法模型:xt?Tt?St?It; ②乘法模型:xt?Tt?St?It;

③混合模型:xt?St?Tt?It,xt?St?(Tt?It)。

其中xt为时刻t的序列值,Tt,St,It分别表示趋势、季节性、随机波动,下同。 2.季节多元回归模型

xt? a0?a1t? b1Q1?b2Q2?b3Q3?It

{{144424443趋势季节成分随机波动 其中Qi (i?1,2,3)为0-1虚拟变量。

3. ARIMA(p,q,d,T)模型(求和自回归移动平均模型)

??(B)?T?dxt??(B)?t?2 ?E(?t)?0, Var(?t)??, E(?s?t)?0 (s?t)

?E(x?)?0 (s?t)st?符号说明

a. B为一阶延迟算子(Bxt?xt?1);

b. ?(B)?1??1B?L??pB (?p?0)为自回归系数多项式; c. ?(B)?1??1B?L??qB (?q?0)为移动平均系数多项式; d. ??(1?B)为d阶差分算子,用于消除趋势成分; e. ?T为步长为周期T的T步差分算子,用于消除季节成分。

四、(1)厂家从自身利益出发,当然希望每袋平均重量??250g,这样有利于提高产品销量,于是可以

把??250g放在“被保护”的位置,而原假设正具有“被保护”的特性,于是可提出如下检验假设:

ddpq?H0:??250g ?H:??250g?1 (2)从消费者利益出发,我们担心每袋平均重量??250g,如果要我们相信??250g,那么厂家

就得拿出充分的证据来证明,所以??250g应放在“不利”的位置,即放在备择假设中,于是

22

有:

?H0:??250g ??H1:??250g (3)在??0.5的显著性水平和(2)中的检验假设下,p?0.4297??意味着??250是显著不成立的,即拒绝原假设,我们可以相信厂家所言。

p值的含义是当原假设为真时,检验统计量取其实现值以及更极端值的概率,它是检验的真实显著性水平。

(4)这里的区间(241.1,257.5)是一个确定的区间,而食品的实际平均重量要么在其中,要么不在其

中,无概率可言。该区间是95%的随机置信区间的一个实现,后者的意思是食品的实际平均重量以95%的概率落入其中。

五、经典多元线性回归模型为

y?X???

其中y是n维随机向量,X是n?(p?1)设计矩阵,?是p?1维系数向量,?是n维随机误差向量。 关于自变量x1,K,xp的假设主要有:

1.自变量都是确定性变量。回归分析中的自变量与因变量地位是不等的,其中后者是随机的,这与

相关分析二者都是随机的不同。从而自变量与随机误差(以及因变量)也就不相关,保证了回归分析理论的顺利进行。

2.自变量不存在多重共线性。这就要求设计矩阵X列满秩,进而观测次数(样本量)n必须大于自变量个数p。该假设保证了?的普通最小二乘估计可表示为

??(X?X)?1X?y ? 并且具有良好的数学性质,更方便了进一步的假设检验和回归分析的实际操作与应用。否则出现多

重共线性,就会带来上述诸多方面的麻烦。

六、常见的(概率)抽样方式有①简单随机抽样、②分层抽样、③整群抽样、④多阶段抽样和⑤系统抽样,

其中简单随机抽样是最基本的,是其他抽样方式的基础。所谓基本抽样方式,我觉得以不同的标准或不同的思维角度会得出不同的分类方式,比如:

1.如果将整群抽样(通常指一阶)看作特殊的二阶段抽样(二阶段抽样比100%),则有①②④⑤四种

基本抽样方式。

2.如果又将分层抽样视为特殊的二阶段抽样(一阶段抽样比100%),则有①④⑤三种基本抽样方式。 3.如果将系统抽样看作特殊的分层抽样(每层抽一个单元)或者特殊的整群抽样(只抽一个群),则

有①②③④四种基本抽样方式。

七、贝叶斯判别分析的原理是将贝叶斯统计思想用于判别分析。具体说来,设有k个总体G1,K,Gk,分

别有密度函数p1(x),K,pk(x)(一般假定总体都服从正态分布,协方差阵都相等,各均值有显著差

m异),已知出现这k个总体的先验概率为q1,K,qk。我们希望给出一种判别法,也就是给出空间R的

23

一种划分:D?{D1,K,Dk},当x落入Di时,将其判给Gi,使得在该判别法下所带来的平均损失

ECM(D)??qi?L(j|i)P(j|i)

i?1j?1kk达到最小。其中L(j|i)为样品来自Gi而被判给Gj的错判损失,P(j|i)?Dj?p(x)dx为错判概率。

i(1)与聚类分析数据都是未知类别的相比,贝叶斯判别分析的数据结构中有一部分数据是已知类别的,

还有一部分属于待判别归类的未知类别的。

(2)贝叶斯判别法最终是将样品判给平均损失最小的总体。而其他判别法,比如距离判别法是将样品

判给相距最小的总体;逐步判别法是先选择最优判别变量,再结合其它判别法进行判别等等。 八、(1)建造大坝是一项复杂的工程,要综合水利、建筑、地质、数学、统计等多学科的知识,要考虑方

方面面的因素。就其中坝高设计这一点来说,要考虑的主要因素我认为有河流宽度与两岸高度、周围地质构造、河水各季度平均流量、地域旱涝特征,还有建坝的预估资金和时间等等。

(2)具体步骤如下:

①制定计算坝高的详细计划;

②确定影响坝高的主要指标; ③充分收集整理指标数据;

④综合利用各学科知识建立坝高数学模型; ⑤检验优化模型;

⑥利用模型计算坝高估计值,给出置信度和置信区间。 流程图如下:

24

2007年人大统计学专业课初试题参考解答 一、(1)①需假定总体是正态总体。

②不能用数据证明。数据至多只能检验该数据的分布是否接近正态分布,而不能从理论上证明或

肯定它一定就来自正态分布总体,即正态性检验不能提供不拒绝正态性原假设的结论。

③不是。该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,没有概率可言。它是置信度为95%的随机置信区间的一个样本实现,后者才是以95%的概率覆盖真实总体均值。

(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般?30)。 ②不能。“接受零假设”的说法是不妥的,否则就得负责任的给出犯第二类错误的概率,而该检

验的备选假设是“总体均值>4.8克”,据此是无法算出此概率的。所以只能说,在显著水平为0.05时利用该数据进行检验不足以拒绝零假设,不拒绝不等同于接受。

二、(1)不是。因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所以每个员工入样的概率并

不一样,这其实是一种非概率抽样。

(2)①不对。不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能

导致响应误差。调查者不当的引导或者问卷设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产生响应误差,因为这不是我们想要的“实话”。另外,拒绝回答也是一种重要原因。 ②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观的。

(3)整体来说是不独立的。因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工

加班时间一般是独立的。

三、(1)令自驾车上班人数比例为?,由于不能轻易否定原结论,则检验假设为:

?H0:??30% ?H:??30%?1 (2)①令样本量为n,其中驾车上班人数为X,假定X服从二项分布B(n,0.3),X的样本值为x0,

p值?P{X?x0}?P{X?0}?P{X?1}?L?P{X?x0}

X/n?0.3H0②检验统计量Z?~N(0,1)。

近似0.3(1?0.3)/n 假定:大样本(X?5, n?X?5);每人驾车上班与否相互独立且服从同参数0-1分布。

(3)统计上显著并不意味着实际上显著,要具体问题具体分析。比如,某箱牛奶经统计检验,含三聚

氰胺的概率显著低于5%,但人们未必敢要这箱牛奶;统计上0.1与0.01有显著差异的时候,实际中未必有多大意义。不过统计显著与实际显著很多时候是一致的。

四、不负责。一个负责任的调查报告应该给出较详尽的内容,主要如下:

①主题; ②调查时间与地点; ③调查主题、客体、对象;

25

④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法; ⑤结论描述; ⑥精度、质量评估; ⑦责任; ⑧参考文献。

五、①无道理。如果进行第二次主成分分析,那么它处理的变量是第一次主成分分析得到的互不相关的主

成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的,这可以通过矩阵运算进行验证,所以做的是无用功。

②变量之间相关系数多数较小(一般指<0.3)的数据不宜进行主成分分析。

③不总是适用。要具体问题具体分析,不能拘泥于某些固有的准则,有时候还要根据问题的实际意义或专业理论知识来分析。

六、①不一定。只有当所有对因变量产生影响的自变量都考虑进来了而且不存在自相关、异方差等情况时,

?才是随机误差。

②不需要。如果要研究最小二乘估计量性质的话,就得假定?满足Guass-Markov条件;若还要进行

2回归系数区间估计和有关假设检验,则要进一步假定?~N(0,?In)。

七、(1)需要选择度量样品或指标相似性的统计量,通常是距离(欧式距离、马氏距离等)或相似系数(夹

角余弦、相关系数等)。然后还要定义样品间、类与类间的距离或相似系数。

(2)①计算n个样品两两间的距离;

②构造n个类,每个类只包含1个样品; ③合并距离最近的两类为1新类; ④计算新类与其它类之间的距离;

⑤判断类的个数是否为1,是则进入第⑥步,否则返回第③步; ⑥画谱系聚类图;

⑦决定分类个数和各类成员。

(3)①把样品粗略分成K类;

②以上述K类的均值为种子,按照到它们距离的远近把所有点分成新的K类; ③反复进行第②步,直至收敛,得到最终的K类。

八、(1)可能是前进法或逐步回归法。由表可知,选元进行了两步,第一步选了自变量Beginning Salary,

第二步增加了另一自变量Employment Category。前进法显然解释得通。至于逐步回归法,因为只进行了两步,而它的第二步不考虑剔除,故可以得到与前进法完全一样的结果。 (2)Sig.就是通常所说的p值,其计算公式为

Sig.?P{F?F0}

这里的F是原假设成立时服从F分布的检验统计量,F0是F的样本值,即表中的1622.118和

997.312。

Sig.的意义就是,原假设为真时,F统计量取其样本实现值以及更极端值的概率,是检验的真实

显著性水平。

2 (3)假定:①?~N(0,?In);②原假设H0:?1??2?0成立。

26

证明:可知F?SSR/p (SSR指回归平方和,SSE指残差平方和)。

SSE/(n?p?1) 由数理统计知识,在假定①成立时,有

SSE/?2~?2(n?p?1)

在假定①②成立时,有

SSR/?2~?2(p)

且SSE与SSR是相互独立的,故

F? 证毕。

SSR/p~F(p,n?p?1)

SSE/(n?p?1)2006年人大统计学专业课初试题参考解答 一、(1)图略。

(2)第二种排队方式平均等待时间

191x2??x2i?(5.5?6.6?L?7.8)?7.0?x1?7.2

9i?19 其中x1为第一种排队方式平均等待时间。 第二种排队方式的方差

27

1912s?(x?x)?[(5.5?7)2?(6.6?7)2?L?(7.8?7)2]?2i29?1i?19?1

22 ?0.51?s12?1.972?3.88 其中s1为第一种排队方式的方差。

可知第二种排队方式比第一种排队方式离散程度小。

(3)我会选择第二种排队方式。以为它的平均等待时间较短,等待时间也较稳定。 二、(1)样本量为50,可认为是大样本,由中心极限定理知

2x??~&N(0,1)

?/50??为样本标准差。 其中x为样本均值,?为总体均值,? 由

P{ 得到95%的置信区间

x???z0.025}?0.95

?/50??/50,x?z0.025??/50) (x?z0.025?代入样本数据计算得

151x??Mifi?(97?2?99?3?101?34?103?7?105?4)?101

50i?15015???(Mi?x)2fi?50?1i?11[(97?101)2?2?L?(105?101)2?4] 50?1 ?1.67 ? 所求置信区间为

(101?1.96?1.67/50,101?1.96?1.67/50)

(100.54,101.46)

(2)由表可知样品中超过100g的食品包数占大多数,厂家的观点似乎有一定的可信度,故令检验假

设为

?H0:每袋食品重量?100g ?H:每袋食品重量?100g?1 (3)P值是当原假设为真时,得到所观测结果或更极端结果的概率,是检验的真实显著性水平,可利

28

用P值直接决策或将P值与显著性水平?进行比较,不需要查表,具有可比性;统计量检验是先确定一个显著性水平?从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差。

三、(1)这是无交互作用双因素方差分析问题,由行、列自由度可知行因素是供应商,列因素是车速。 列的F检验值97.68>F临界值8.65,P值0.000002<<显著性水平?=0.01,故拒绝原假设,即认

为车速对磨损程度有显著影响。

(2)同(1)之理,可知不同供应商的轮胎之间的磨损程度有显著差异。 (3)假设:①车速与供应商对轮胎的磨损程度无交互作用;

②车速与供应商不同水平组合形成的总体都是正态总体; ③上述总体方差都相同; ④各观测数据相互独立;

⑤行因素原假设H0:?1?L??5 (?i是总体均值,下同); ⑥列因素原假设H0:?1??2=?3。

四、简单随机抽样是从单元数为N的总体中逐个不放回等概率抽取n个单元或者一次性随机抽出n个单元,

得到简单随机样本。它是最简单的概率抽样方法。适用于总体总量较小或总体方差与任意局部方差基本相当的场合。如果总体总量较大或总体各单元差异较大,就不宜单独使用,因为此时拥有完整的抽样框是困难的,抽样单元也比较分散,会增加调查费用,而且会使总体目标量的估计产生较大误差。所以一般是与其他方法结合使用,比如分层抽样各层内科采用简单随机抽样,整群抽样抽取群、多阶段抽样各阶的抽样也都可采用它。

五、回归模型:y?X???。

假设:①解释变量为非随机变量;

②解释变量不存在多重共线性(即要求设计矩阵X列满秩,样本量大于自变量个数);

2③Guass-Markov假定:E(?)?0, Var(?)??In; 2④正态假定:?~N(0,?In)。

假设不成立之应对:

假设①是回归分析基本要求,否则就不是回归分析;

假设②若不满足,就是多重共线性现象。有多种克服方法,比如剔除不重要自变量,增大样本量,对回归系数进行有偏估计(主成分法、岭回归法、偏最小二乘法等)等等。

假设③若不满足,随机误差?有可能出现异方差现象或自相关现象。若是前者,可通过加权最小二乘法、Box-Cox变换法、方差稳定性变换等方法来克服;若是后者,可通过修改模型、增加自变量、迭代法等方法来克服。

假设④若不满足,则无法进行参数区间估计和假设检验。可以重新观测数据或对数据进行正态性变换。

六、①意义:该模型表示原始变量被表示为公共因子和特殊因子的线性组合,展现了原始变量与公共因子

之间的相关关系,多数的原始变量(p个)被综合少数的新变量(m个,m?p)——公共因子,

起到了降维的效果,简化了问题的复杂性又抓住了问题的主要矛盾。

29

②假设:

a.X是可观测的随机向量,E(X)?0;

b.F是不可观测的随机向量,E(F)?0,D(F)?Im (m?p);

2c. E(?)?0,D(?)?diag(?12,K,?p);

d. Cov(?,F)?0。

七、(1)若不考虑国外部门的影响,GDP被分配于政府、企业、居民三个部门。(可以对原始收入形成、

初次分配、再分配过程进行一定的阐述)

(2)略。 八、(1)参看高敏雪,李静萍.经济社会统计[M].北京:中国人民大学出版社, 2003之P75-P76财务统计分

析,P78经济效益考核体系。

(2)略。

2005年人大统计学专业课初试题参考解答 一、(1)图略。 (2)图略。

(3)由茎叶图和箱线图知,上网者年龄主要集中在20-30岁之间,离散程度较小,呈右偏分布。

二、若采用两两配对的方式检验,会增加犯第一类错误的概率(设检验水平为?,连续作3次两两检验犯

第一类错误的概率为1?(1??)??),另外随着检验次数的增多,偶然因素导致差别的可能性也会增加;而方差分析是同时考虑所有样本,因而排除了错误的累积,减少了偶然因素的不利影响,也简化了检验过程。

三、(1)样本量为36,可视为大样本,考虑如下95%的置信区间

(x?z0.025s/n,x?z0.025s/n) ……………… ①

代入x?107,s?29.96,n?36,z0.025?1.96得

3(97.22,116.78) ……………………… ②

(2)不一定。因为区间②是一个确定的区间,餐馆实际月平均用水量要么在其中,要么不在其中,两

者只有其一。区间②其实是区间①的一个样本实现,区间①是一个随机区间,它有95%的可能性包含餐馆实际月平均用水量。

(3)餐馆管理协会估计的月平均用水量?=100吨是不能轻易否定的,应处于被“保护”位置,则检

验假设为

30

?H0:??100 吨 ?H:??100 吨?1 若拒绝原假设,也就是发生了小概率事件,那么我们有充分的理由支持备择假设;若不拒绝原假

设,并不意味着它就一定正确,只是现有证据不足以拒绝它而已。

(4)用到了中心极限定理。它说的是独立同分布随机变量之和的极限分布是正态分布,揭示了正态分

布的源泉和重要地位,是参数区间估计和假设检验的理论基础。

四、(1)线性回归方程为

??207.9037?1.4378x1?0.8545x2?0.0626x3 y?的意义是,在其它自变量保持不变时,xi每变动一个单位,y 其中第i (i?1,2,3)个回归系数?i?个单位。 就平均变动?i (2)由p值=0.00

0.0271

故第1,2个回归系数显著,第3个回归系数不显著。 (4)多重判定系数

R2?SSR/SST?70090029.08/75375973.33?0.93

它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度。此

处R?0.93,表明回归拟合效果很好。

(5)估计标准误差

2sy?SSE?MSE?480540.39?693.21

n?p?1 sy是y的标准差的股价,反映了y(房地产销售价格)的波动程度。

(6)有用。虽然该变量的系数没通过显著性检验,但并不意味着该变量没用,它在经济解释上可能还

是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。

五、(1)图略。

(2)①按照分层的观点,划分子总体应该是两个子总体之间的差异尽量大,而子总体内部的差异尽量

小,故划分方式为:

第一个子总体为{Y1},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,}。

②但如果要进行精度的计算,不能出现一个总体只含有一个单元的情况,故为了计算精度,下面的划分方式也是可以接受的: 第一个子总体为{Y1,Y8},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y9,}。 ③此外也可以应用多元统计中的系统聚类法形成两个子总体:

31

第一个子总体为{Y1},第二个子总体为{Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,}。

(3)上述数据出现了离群值,它是调查数据里的极端值,会于其它数据明显不一致。其起因一般有三

个:

①被调查者回答有误;

②调查者记录有误;

③数据本身的差异。当总体呈偏态分布时,这种情况就可能发生。例如数据是不同公司的市场份额,那么少数公司占整个销售额的绝大部分,其余公司占小部分的情况是很普遍的。 但是,题目强调了给定的数据是总体的全部真实数据,那么第①、②种情况是不存在的,所以应该是第③种情况。

(4)总体均值

19Y??Yi?2.53

9i?1 总体方差

19S?(Yi?Y)2?6.50 ?9?1i?12 (5)在本例应用的四种方法:

简单随机抽样的不足之处在于估计精度略低。

分层抽样的不足之处在于如果按照最优的层内差距尽量小、层间差距尽量大的原则((2)之①)分层会导致精度无法估计,故只能选择次优分层方法((2)之②)。

整群抽样的不足之处在于无法通过分群使群间差异尽量小,因为Y1在任何一个群中都会使该群

与其它群差异较大。此外整群抽样的估计精度一般也比简单随机抽样低;系统抽样的不足之处在于估计量方差的估计相对困难。

综上所述,尽管各种抽样方式各有不足之处,但是结合下面一道问题,我认为简单随机抽样、分层随机抽样和系统抽样的不足之处都可以接受,但是整群抽样的不足之处相对显著,而且整群抽样在下面一道题里计算也非常困难,所以整群抽样最不合适。

(6)①简单随机抽样

可能的样本:(Yi,Yj), 1?i?j?9; 样本均值:E(y)?Y?2.53; 样本方差:V(y)?1?f2S?2.53。 n②分层随机抽样

分层方式为(2)之②。

可能样本:(Yi,Yj), i?1,8; j?2,3,4,5,6,7,9; 样本均值:E(yst)?Y?2.53; 样本方差:V(yst)??Wh2h?1L1?fh2Sh?0.33。 nh

32

③系统抽样

抽样方式为环形等距抽样(k?4)。可能样本为:

(Y1,Y5),(Y2,Y6),(Y3,Y7),(Y4,Y8),(Y5,Y9),(Y6,Y1),(Y7,Y2),(Y8,Y3),(Y9,Y4)

样本均值:E(ysy)?Y?2.53; 样本方差:

1kV(ysy)?E(ysy?Y)??(yr?Y)2kr?1Y?YY?Y1Y?Y ?[(15?2.53)2?(26?2.53)2?L?(94?2.53)2]

9222 ?2.282 (7)简单随机抽样deff1?1。 分层随机抽样deff2?V(yst)0.33??0.13。

Vsrs(y)2.53 系统抽样deff3?V(ysy)Vsrs(y)?2.28?0.90。 2.53 分层随机抽样和系统抽样的设计效应均小于1,说明这两种方式在此情景下的抽样效率要高于简

单随机抽样。此外deff2?deff3,说明分层随机抽样的效率高于系统抽样。由于deff2远小于1,说明此情形下分层随机抽样的效率远高于简单随机抽样。而deff3接近于1,说明系统抽样的效率接近于简单随机抽样。

????x,Ylr?y??(X?x); ???六、联系:①形式接近。y01②?确定方式接近。回归估计中若?未知,则??LxyLxx。

区别:目的不同。回归方法揭示因变量和自变量的线性依赖关系,即因变量变化引起的自变量变化。

抽样里则是利用辅助变量X来提高对Y的估计精度。

七、生产过程提供了用于分配的增加值。分配在生产的基础上对增加值进行分配。使用在分配基础上进行

消费和储蓄。 八、(1)A地贫困者比重20% 。

B地贫困者比重10%。

11%?A地贫困深度P1?1??1?1?900200?9%?10001000?0.415。

20%

33

1%? B地贫困深度P2?1??2?1?900500?9%?10001000?0.46。

10%(2)A地贫困者人数比B地多,但是由贫困深度反映出A的贫困人员在整体收入水平上比B地更接

近贫困线。

(3)不能,贫困者比重仅能反映人数,不能反映贫困程度;贫困深度反映了一定的贫困程度,但是

受贫困情况分布影响较大,不能很好的反映当贫困者的收入存在较大差异时的情况。此外仅靠收入状况也不能客观地反映贫困状况。可以采用森贫困系数, 也可采用其他指标作为补充,如文盲率、婴儿死亡率等等。 九、(1)40 ,-70 ,-30。

(2)交易中经常账户和资本金融账户的盈余,进入储备资产,也即储备资产增加125亿元。 (3)GDP+来自国外的生产要素净额=GNP,即GDP+40=GNP。

GNP+来自国外的转移净收入=国民可支配收入,即GNP-65=国民可支配收入。

(4)该国在货物和服务以及财产收入方面有较大的顺差,储备资产增加,多余资金流出到国外各地投

资,取得大量的财产收入,是发达国家的典型表现。

34

2004年人大统计学专业课初试题参考解答

1.(1)图略。

(2)分三方面比较:集中趋势(平均数、中位数、众数),离散程度(标准差、方差、极差),分布形

态(峰度、偏斜度)。

(3)可画散点图直观判断;也可计算与均值的绝对距离,看是否偏大。 (4)可画画直方图、Q-Q或P-P图;也可计算峰度与偏斜度。 2.(1)420,2,1.48;27,142;4256。 (2)因为p值?0.245946??,F?1.478873?F crit?3.354131,所以不能拒绝均值相等的原假设,即认为三种方法组装的产品数量之间无显著性差异。 (3)假定:①三种方法对应的总体服从正态分布;

②各总体方差相同; ③各观测值相互独立; ④个工人水平相当。

(4)前提:方差分析得出总体均值不全相等的结论;

作用:进一步分析到底是哪些均值之间不相等,是通过总体均值之间两两配对比较来进行检验的。 3.(1)从袋中任取一球,观察其颜色,定义随机变量

?1, 取到白球 X???0, 取到黑球 X就是该问题的总体,其分布为

?0X~??1?p(2)样本量n?4。

1?? p?(3)若令Xi表示第i次取球的结果,则样本为(X1,X2,X3,X4),拒绝域为

C?(x1,x2,x3,x4)|?i?1xi?2, xi?0或1

(4)犯第一类错误的概率

?4???P?否定H0|H0为真??P??i?1xi?2|p??

??41?2?1?1?50?11? ?C41??C1???0.31254????2?2?16?2?43

4. 以单因素方差分析说明:

由方差分析基本假定,有xij~N(?j,?), i?1,K,nj;j?1,L,k。

2令?ij?xij??j~N(0,?),有xij??j??ij。

2

35

kkk1k令总均值???nj?j (n??nj),有?nj(?j??)??nj?j?0(其中?j称为第j个水平的

nj?1j?1j?1j?1(主)效应,它表示每个自变量对因变量的单独影响),得单因素方差分析模型

?x??????, i?1,K,n;j?1,K,kjijj?ij?2 ??ij~N(0,?), 各?ij相互独立?kn??0???j?1jj举例略。

5.正态线性回归模型为

?y?X??? ?2??~N(0,?In) 最小二乘估计就是寻找?,使得离差平方和

Q(?)?y?X? 达到最小。 由上述模型知

2?(y?X?)?(y?X?)

y~N(X?,?2In)

似然函数就是随机向量y的联合概率密度

f(y;?,?)?(2?)2?n/2??n??2?exp??(y?X?)?(y?X?)?

?2? 最大似然估计就是寻找?使得f(y;?,?)达到最大,由上式易知,这只需

2(y?X?)?(y?X?)

达到最小,这与最小二乘估计殊途同归。证毕。

6-10.略。

2003年人大统计学专业课初试题参考解答

一、 不能。GDP在进行国家间比较的时候采用汇率法,汇率的变动会影响折算后的结果,不能客观反映

经济水平。若按照甲国本币计算,GDP仅下降25%,该方法的问题在于汇率法进行国际比较的局限性:

①汇率由多种因素构成;

②汇率仅代表国际贸易成分,未代表国内产品;

36

③低估发展中国家的水平。

二、国际收支平衡表原理认为:

经常贸易差额+资本项目差额+储备资产变动+误差与遗漏=0 储备资产变动= -(经常贸易差额+资本项目差额+误差与遗漏)

若不考虑误差与遗漏,则该国国际收支为逆差。 三、(1)

原始收入=工资+劳动+利息+财产+营业盈余 可支配收入=原始收入+转移支付净额 消费支出=食品+衣着+医疗+居住 (2)

各种收入占可支配收入的比例 恩格尔系数=食品支出/可支配收入 各种支出所占比例

解释略。

四、(1)4115.2 ,2057.6 ,6.95;667322.5 ,2253.7 ;2368.8。 (2)p值?0.0178??,故拒绝均值相等的原假设,即影响显著。 (3)同(2)知影响显著。 (4)计算

工资和劳动 财产 经营 转移支付 物质 服务 1985 0.85 0.01 0.01 0.12 0.49 0.87 0.13 2001 0.72 0.04 0.06 0.18 0.31 0.77 0.23 1985 626 716 672 2001 5333 6555 5308 品种平方和4115.2??0.15%

总平方和2675774 (5)计算

地块平方和2669290??99.76%

总平方和2675774 (6)假定:①品种、地块各水平组合形成的总体是正态总体;

②各总体方差相等; ③各观测值相互独立;

④品种与地块对产量无交互作用。

五、(1)

37

?H0:本公司职工年人均病假天数?5.1天 ?H:本公司职工年人均病假天数?5.1天?1 (2)步骤:①提出公司领导感兴趣的检验假设(如(1));

②确定检验统计量

Z?x?? s/n显著性水平?=0.05和拒绝域Z|Z|?z?/2;

③根据样本数据计算检验统计量(或利用计算机计算p值)

??Z?7?5.1?5.15?z?/2?1.96

2.5/46④依据小概率原理进行统计决策。由③可知样本落入了拒绝域,小概率事件发生了,故拒绝原假设,即认为本公司职工比其它单位职工更易生病。

示意图:

(3)p值是指当原假设为真时,得到所观测结果以及更极端结果的概率,是检验的真实显著性水平。 (4)说明了得到已有样本观测值以及更极端值的概率是0.001,这是一个小概率事件,故有充分理由

拒绝(1)中的原假设,这与拒绝域的检验结果是一致的。

(5)

Z?x??0~&N(0,1)s/n?x??0?P??z?/2??Px??0?z?/2s/n或x??0?z?/2s/n???s/n???

故在显著性水平?下,所求临界点为

?0mz?/2s/n?5.1m1.96?2.5/46 ?4.38或5.82

38

六、(1)

(2)①首先根据具体问题选择合适的因变量,然后选择合理的自变量,和结合问题的实际意义和专业

理论知识,运用逐步回归法等方法选自变量;

②收集整理数据是一个重要环节,它直接影响模型的质量;

③通常构造线性回归模型,也有非线性模型,还可将非线性的转化为线性的; ④参数估计有最小二乘法和极大似然法等方法;

⑤回归诊断的内容较多,包括诊断基本假定是否成立,检验回归方程及其系数的显著性还有拟合优度,检验异常值和方程是否符合实际意义。通过了诊断就进入第⑥步,否则返回第①步; ⑥模型主要应用于结构分析、预测和控制三个方面。

(3)证明:

?)?E[(???E??)(???E??)?]?E[(????)(????)?]D(? ?E[((X?X)?1X?y??)((X?X)?1X?y??)?] ?E[((X?X)?1X?(X???)??)((X?X)?1X?(X???)??)?] ?E[((X?X)?1X??)((X?X)?1X??)?] ?E[(X?X)?1X????X(X?X)?1] ?(X?X)?1X?E(???)X(X?X)?1 ?(X?X)?1X?(?2In)X(X?X)?1 ??2(X?X)?1 (4)对于一元线性回归,有

39

22x?x(x?x)?2ii?)?Var(Var(??Lyi)??L2??L1xxxxxx?)?Var(y???x)?Var((1?x(xi?x))y)?(1?x(xi?x))2?2Var(??nL?nL01ixxxx1x2(xi?x)22x(xi?x)221x22 ??(2??)??(?)?2nLxxnLxxnLxx?,??)?Cov((1?x(xi?x))y,xi?xy)Cov(??nL01i?iLxxxx1x(xi?x)xi?x2x ??(?)????2nLxxLxxLxx

?)和Var(??)的表达式可知,??,??的波动程度不仅与?有关,而且与x的取值离散 由Var(?01012?的波动程度。因此收集数据的时候,x的取值尽量分散一些,程度有关,另外样本量n也影响?0?,??与??更稳定。还可看出,当x?0时,??不样本量n大一些,这样会使回归系数估计值?0011相关。

40