②各个总体的方差相同; ③各观测值是独立的;
④性别和职称对满意度的影响是独立的,即它们之间没有交互作用。
2008年人大统计学专业课初试题参考解答
一、用中位数来描述家庭收入数据的集中趋势有优点亦有不足。
1.中位数是指一组数据排序后处于中间位置的变量值,不受极端值影响,对偏斜程度较大的顺序或数
值型数据代表性较好,所以它能够排除过高收入或过低收入带来的不良影响。 2.作为描述数据集中趋势的指标,中位数的应用远不及平均值广泛,中位数只是一组数据中的一个值,
因而对整个香港家庭收入信息有较大浪费;而平均值能包含所有收入信息,而且具有优良的数学性质,不过它易受极端值的影响,主要适用于测度偏斜度不大的数据。
3.用中位数作为判别低收入的指标,那么低收入的比例一直都是50%,这显然与“比例在增长”相矛
盾。
二、方差分析表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相
等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源,所以叫做方差分析。
观察到的数据一般是参差不齐的,我们用SST(总平方和)度量数据总的变异,将它分解为可追溯到来源的部分变异SSE(组内平方和)与SSA(组间平方和)之和,若后者的平均MSA(组间均方)明显比前者的平均MSE(组内均方)大,就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。所谓基本假定就是,各总体服从正态分
21
布;各总体方差相同;各观测值相互独立。
三、有多种预测模型可供选择:
1.时间序列分解模型
①加法模型:xt?Tt?St?It; ②乘法模型:xt?Tt?St?It;
③混合模型:xt?St?Tt?It,xt?St?(Tt?It)。
其中xt为时刻t的序列值,Tt,St,It分别表示趋势、季节性、随机波动,下同。 2.季节多元回归模型
xt? a0?a1t? b1Q1?b2Q2?b3Q3?It
{{144424443趋势季节成分随机波动 其中Qi (i?1,2,3)为0-1虚拟变量。
3. ARIMA(p,q,d,T)模型(求和自回归移动平均模型)
??(B)?T?dxt??(B)?t?2 ?E(?t)?0, Var(?t)??, E(?s?t)?0 (s?t)
?E(x?)?0 (s?t)st?符号说明
a. B为一阶延迟算子(Bxt?xt?1);
b. ?(B)?1??1B?L??pB (?p?0)为自回归系数多项式; c. ?(B)?1??1B?L??qB (?q?0)为移动平均系数多项式; d. ??(1?B)为d阶差分算子,用于消除趋势成分; e. ?T为步长为周期T的T步差分算子,用于消除季节成分。
四、(1)厂家从自身利益出发,当然希望每袋平均重量??250g,这样有利于提高产品销量,于是可以
把??250g放在“被保护”的位置,而原假设正具有“被保护”的特性,于是可提出如下检验假设:
ddpq?H0:??250g ?H:??250g?1 (2)从消费者利益出发,我们担心每袋平均重量??250g,如果要我们相信??250g,那么厂家
就得拿出充分的证据来证明,所以??250g应放在“不利”的位置,即放在备择假设中,于是
22
有:
?H0:??250g ??H1:??250g (3)在??0.5的显著性水平和(2)中的检验假设下,p?0.4297??意味着??250是显著不成立的,即拒绝原假设,我们可以相信厂家所言。
p值的含义是当原假设为真时,检验统计量取其实现值以及更极端值的概率,它是检验的真实显著性水平。
(4)这里的区间(241.1,257.5)是一个确定的区间,而食品的实际平均重量要么在其中,要么不在其
中,无概率可言。该区间是95%的随机置信区间的一个实现,后者的意思是食品的实际平均重量以95%的概率落入其中。
五、经典多元线性回归模型为
y?X???
其中y是n维随机向量,X是n?(p?1)设计矩阵,?是p?1维系数向量,?是n维随机误差向量。 关于自变量x1,K,xp的假设主要有:
1.自变量都是确定性变量。回归分析中的自变量与因变量地位是不等的,其中后者是随机的,这与
相关分析二者都是随机的不同。从而自变量与随机误差(以及因变量)也就不相关,保证了回归分析理论的顺利进行。
2.自变量不存在多重共线性。这就要求设计矩阵X列满秩,进而观测次数(样本量)n必须大于自变量个数p。该假设保证了?的普通最小二乘估计可表示为
??(X?X)?1X?y ? 并且具有良好的数学性质,更方便了进一步的假设检验和回归分析的实际操作与应用。否则出现多
重共线性,就会带来上述诸多方面的麻烦。
六、常见的(概率)抽样方式有①简单随机抽样、②分层抽样、③整群抽样、④多阶段抽样和⑤系统抽样,
其中简单随机抽样是最基本的,是其他抽样方式的基础。所谓基本抽样方式,我觉得以不同的标准或不同的思维角度会得出不同的分类方式,比如:
1.如果将整群抽样(通常指一阶)看作特殊的二阶段抽样(二阶段抽样比100%),则有①②④⑤四种
基本抽样方式。
2.如果又将分层抽样视为特殊的二阶段抽样(一阶段抽样比100%),则有①④⑤三种基本抽样方式。 3.如果将系统抽样看作特殊的分层抽样(每层抽一个单元)或者特殊的整群抽样(只抽一个群),则
有①②③④四种基本抽样方式。
七、贝叶斯判别分析的原理是将贝叶斯统计思想用于判别分析。具体说来,设有k个总体G1,K,Gk,分
别有密度函数p1(x),K,pk(x)(一般假定总体都服从正态分布,协方差阵都相等,各均值有显著差
m异),已知出现这k个总体的先验概率为q1,K,qk。我们希望给出一种判别法,也就是给出空间R的
23
一种划分:D?{D1,K,Dk},当x落入Di时,将其判给Gi,使得在该判别法下所带来的平均损失
ECM(D)??qi?L(j|i)P(j|i)
i?1j?1kk达到最小。其中L(j|i)为样品来自Gi而被判给Gj的错判损失,P(j|i)?Dj?p(x)dx为错判概率。
i(1)与聚类分析数据都是未知类别的相比,贝叶斯判别分析的数据结构中有一部分数据是已知类别的,
还有一部分属于待判别归类的未知类别的。
(2)贝叶斯判别法最终是将样品判给平均损失最小的总体。而其他判别法,比如距离判别法是将样品
判给相距最小的总体;逐步判别法是先选择最优判别变量,再结合其它判别法进行判别等等。 八、(1)建造大坝是一项复杂的工程,要综合水利、建筑、地质、数学、统计等多学科的知识,要考虑方
方面面的因素。就其中坝高设计这一点来说,要考虑的主要因素我认为有河流宽度与两岸高度、周围地质构造、河水各季度平均流量、地域旱涝特征,还有建坝的预估资金和时间等等。
(2)具体步骤如下:
①制定计算坝高的详细计划;
②确定影响坝高的主要指标; ③充分收集整理指标数据;
④综合利用各学科知识建立坝高数学模型; ⑤检验优化模型;
⑥利用模型计算坝高估计值,给出置信度和置信区间。 流程图如下:
24