(2)描述分层聚类分析的详细步骤;
(3)描述K均值(快速)聚类分析的详细步骤。 八、(25分)应用多元线性回归模型y=β0+β1x1+β2x2+…+βpxp+ε,如果一个SPSS回归分析的结果如下表所示: ANOVA Model 1 Regression Residual Total Regression Residual Total Sum of Squares df Mean Square F Sig. .000a 106831048750.124 1 106831048750.124 31085446686.216 472 65858997.217 1622.118 137916495436.340 473 111136313278.118 2 55568156639.059 26780182158.221 471 56858136.217 997.312 137916495436.340 473 2 .000b a. Predictors:(Constant),Beginning Salary
b. Predictors:(Constant),Beginning Salary,Employment Category 则:
(1)表中所用选择自变量的方法可能是什么? (2)表中的最后一个Sig.如何求得?意义是什么?
(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条件,并对该统计量服从F分布予以证明。
2006年人大统计专业课初试题
一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下: 5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图; (2)比较两种排队方式等待时间的离散程度;
(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。 二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:
每包重量/g 96-98 98-100 100-102 102-104 104-106 包数 2 3 34 7 4
5
合计 50
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量95%的置信区间;
(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设; (3)利用P值进行检验和利用统计量进行检验有什么不同? (z0.05=1.645, z0.025=1.96,t0.05=1.69,t0.025=2.03) 三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:
差异源 行 列 误差 总计
SS 1.55 3.48 0.14 5.17
df 4 2 8 14
MS 0.39 1.74 0.02
F 21.72 97.68
P-value 0.000236 0.000002
F crit 7.01 8.65
(1)不同的车速对磨损程度是否有显著影响?
(2)不同供应商的轮胎之间磨损程度是否显著差异? (3)在上面的分析中,你都做了哪些假设? 四、(15分)说明什么条件下适合采取简单随机抽样? 五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。 六、(20分)解释因子模型 X=AF+ε
的意义并写出模型的假设。 七、(15分)以下是从《中国统计年鉴-2005》摘引的资料,要求: 单位:元/人
人均国内生产总值 城镇居民人均可支配收入 农村居民人均纯收入 2003年 9111 8472 2622 2004年 10561 9422 2936
(1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因; (2)计算各指标的动态变动率(不考虑价格变化),对其结果予以简要分析。 八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,要求: (1)设计并计算反映企业经济效益的指标;
6
(2)对经济效益指标的动态变化状况做简要分析。
工业总产值(亿元) 工业增加值(亿元) 企业单位数(个) 资产总计(亿元) 流动资产年平均余额(亿元) 固定资产净值年平均余额(亿元) 负债合计(亿元) 产品销售收入(亿元) 产品销售成本(亿元) 产品销售税金及附加(亿元) 利润总额(亿元) 本年应缴增值税(亿元) 全部从业人员年平均人数(万人)
2005年人大统计专业课初试题
一、(15分)一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如下:
15 19 22 24 30 16 19 22 24 31 17 20 23 25 34 18 20 23 27 38 19 21 23 29 41
(1)画出该组数据的茎叶图; (2)画出该组数据的箱线图;
(3)根据茎叶图和箱线图说明上网者年龄分布的特征。 二、(15分)设有三个总体的均值分别为:μ1,μ2,μ3。要检验三个总体的均值是否相等(α=0.05),我们为什么不先将它们简单地配对,即H0:μ1=μ2,H0:μ1=μ3,H0:μ2=μ3,,然后分别进行检验,而是采用方差分析的方法? 三、(20分)某城市的餐饮管理协会估计,餐馆的月平均用水量为100吨,一家研究机构认为实际用水量要高于这个数字,该研究机构随机抽取了36家餐馆,记录了每个餐馆的月用水量(单位:吨),经过初步计算得到样本数据的部分描述统计量如下:
2003年 142271 41990 196222 168808 71488 66008 73414 143172 118638 2049 8337 5488 5749 2004年 187221 54805 219463 195262 86885 73849 115529 187815 157071 2467 11342 6396 6099
7
平均 107 标准误差 4.99 样本标准差 29.96 样本方差 897.77
(1)确定餐馆月平均用水量95%的置信区间;
(2)餐馆实际月平均用水量在你所建立的置信区间里吗?请说明原因;
(3)如果要检验研究机构的看法是否正确,应该如何建立原假设和备择假设?请谈谈拒绝和不拒绝原假设的含义;
(4)在上面的估计和检验中,你使用了统计中的哪一个重要定理?请简要解释这一定理。 (z0.05=1.645, z0.025=1.96,t0.05=1.69,t0.025=2.03) 四、(20分)一家房地产评估公司想对某城市的房地产销售价格(y)与地产评估价值(x1)、房产评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格做合理预测。为此,收集了15栋住宅的房地产评估数据,经回归得到下面的有关结果(α=0.05):
方差分析 回归 残差 总计
Intercept X Variable 1 X Variable 2 X Variable 3 Coefficient 207.9037 1.4378 0.8545 0.0626 标准误差 617.0486 0.5645 0.2663 0.0656 t Stat 0.3369 2.5472 3.2091 0.9538 P-value 0.7425 0.0271 0.0083 0.3607 df 3 11 14 SS 70090029.08 5285944.25 75375973.33 MS F Significance F 0.00 23363343.03 48.62 480540.39
(1)写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程,并解释各回归系数的意义;
(2)检验回归方程的线性关系是否显著; (3)检验各回归系是否显著;
(4)计算多重判定系数R2,并说明它的实际意义; (5)计算估计标准误差sy,并说明它的实际意义;
(6)你认为使用面积(x3)在预测销售价格时是否有用?试说明理由。 五、(42分)假设一个已知简单总体的全部真实数据列于下表:
8