河南理工大学统计学实验内容 下载本文

统 计 学 实 验 报 告

专业班级:会计

姓 名: 学 号:

指导教师:王晖

一、频数统计

1.A公司在招聘时采用了综合能力测试(满分为100分),由于应聘的人数较多,现随机抽取了157名应聘者的测试成绩,其测试分数的数据如book1所示。

(1)根据上面的资料,进行分组,并确定组数和组距。 (2)编制频率分布表。 (3)画出直方图。

2. 为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果见book2。

(1) 指出表中的数据属于什么类型? (2) 制作一张频数分布表;

(3) 绘制一张条形图,反映服务质量的分布。

数据属于定序型

2

二、参数估计

1.已知灯管使用寿命服从正态分布,其标准差为50小时。现从一批产品中抽取25个作为样本,测得其平均使用寿命为1600小时,要求在95%的概率保证下估计该批产品平均使用寿命的置信区间。(运用CONFIDENCE函数)

2.在一篇关于“通货紧缩”的文章中,作者考察了各种各样投资的收益情况。这些投资包括股票、债券以及房地产等。这篇文章抽取的是样本容量为200的样本,计算的房地产投资收益(单位:%)如book3所示。同时根据经验假定,房地产投资收益的总体标准差为2.3%。请你用区间估计的方法,采用95%的置信度估计房地产投资的平均收益率。

3.Metropolitan Research有限公司是一家消费者研究组织,它设计调查,对消费者所使用的大量的产品和服务进行评估。在某一项研究中,Metropolitan调查消费者对底特律某一个主要制造商所生产的汽车的性能的满意程度。分发给该制造商所生产的一种最大型号小汽车用户的调查表表明,许多人抱怨该车刚开始传动系统不佳。

为了更好地了解传动系统的问题,Metropolitan采用由底特律地区一个修理企业所提供的实际传动系统的维修记录为样本。Book4数据是50辆汽车传动系统出现故障时所行驶的实际里程的数据。

3

(1)对样本数据进行描述性统计分析。

(2)求曾经出现过传动系统问题的汽车总体中在出现传动系统问题时所行驶里程的均值的95%置信区间。

(3)如果研究公司想在5000英里的允许误差下,估计出现传动系统问题时所行驶里程的均值,则置信度为95%时应选取多大的样本容量?

三、方差分析(选做)

1.一家产品制造公司管理者想比较A、B、C三种不同的培训方式对产品组装时间的多少是否有显著影响,将26名新员工随机分配给每种培训方式。在培训结束后,参加培训的员工组装一件产品所花的时间如book5所示(单位:分钟)。 取显著性水平?=0.05,确定不同培训方式对产品组装的时间是否有显著影响?

4

A 8.8 9.3 8.7 9.0 8.6 8.3 9.5 9.4 9.2

培训方式 B 8.2 6.7 7.4 8.0 8.2 7.8 8.8 8.4 7.9 C 8.6 8.5 9.1 8.2 8.3 7.9 9.9 9.4

方差分析:单因素方差分析

结论:不同的培训方式对产品组装的时间有显著影响

2.一家食品制造商推出了一种新的产品,为了使新产品迅速占领市场,公司的市场营销部经理提出了三种营销方式,并且在三个地区分别采用这三种营销方式,然后观察营销方式所产生的产品销售额情况。这三种营销方式在市场上推出之后,公司的统计分析人员随机抽查了20周的销售额数据(单位:千元),如book6所示。

试问:市场营销部经理提出的三种营销方式所产生的销售额是否存在显著性差异?(取显著性水平?=0.05)

5

四、相关与回归分析

1.根据教材第207页表9-4的资料及补充的几个问题,进行相关与回归分析。

(1)

6

(2) 计算相关系数,判断相关密切程度; 人均年收入(千元) 寿险保额 人均年收入(千元) 1 寿险保额 0.944285291 1 结论:相关系数为0.944285291,为高度相关。

(3) 建立回归方程,解释回归系数;

回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值

0.944285291 0.891674711 0.87813405 4.669241739 10 回归分析 残差 总计 df SS 方差分析 MS F Significance F 1 1435.685453 1435.685 65.85164 3.94023E-05 8 174.4145473 21.80182 9 1610.1 Coefficients 标准误差 t Stat P-value Intercept -2.803315684 4.73444203 -0.59211 0.570128 人均年收入(千元) 2.232618696 0.275125767 8.114902 3.94E-05

观测值 1 2 3 4 5 6 7 8 9 10

RESIDUAL OUTPUT 预测 寿险保额 残差 23.98810867 1.011891329 39.61643955 -9.616439545 48.54691433 6.45308567 28.45334606 -1.453346064 16.17394323 3.826056766 30.68596476 -2.68596476 46.31429563 3.685704366 53.01215172 -1.012151723 30.68596476 -0.68596476 19.52287128 0.477128721 结论:回归方程为Y=-2.803315684+2.232618696X,回归系数为2.232618696 表示

收入每增加一单位,寿险保额所增加的量。

(4) 拟合优度R2 = 0.8917 表明平方和中的89.17%能被回归方程所解释。 (5)对总体回归方程显著性检验

提出假设:H0: B0= 0 H1:B1≠0

7

根据回归分析知 F=65.85164

F~F(1,n-2) , n =10 α= 0.05 查表知 F0.05 = 5.32

因为F > F0.05 所以拒绝H0,接受H1。 所以总体回归方程存在且有意义。

对总体回归回归系数显著性检验 提出假设:H0: B0= 0 H1:B1≠0 根据回归分析知 t = 8.114902 α= 0.05,t~(n-2), t0.05 = 1.8125

因为t > t0.05 所以拒绝H0,接受H1,总体回归系数存在显著性。

2.金融机构发放房屋抵押贷款必须了解市场上购买房屋的支付能力和支付状况,购房者的支付能力作为因变量y(用家庭平均月收入的百分比代表每月抵押贷款的平均支付能力),抵押贷款的成本费用作为自变量x(用抵押贷款的平均利率代表)。统计分析人员随机收集了如book7所示的样本数据。

(1)采用最小二乘法求线性回归直线方程; (2)计算可决系数,并解释其意义;

(3)显著性水平设为?=0.05,采用t检验统计量进行检验:购房者的支付能力与抵押贷款利率之间是否存在显著性的线性关系?

(4)显著性水平设为?=0.05,采用方差分析检验方法进行检验:购房者的支付能力与抵押贷款利率之间是否存在显著性的线性关系?

(1)

SUMMARY OUTPUT

回归统计 Multiple R 0.99002042 R Square 0.980140432 Adjusted R Square 0.977657986 标准误差 0.219955429 观测值 10

回归分析 残差 总计 df SS 方差分析 MS F Significance F 1 19.1019569 19.10196 394.8285 4.28762E-08 8 0.38704313 0.04838 9 19.489 8

Coefficients 标准误差 t Stat P-value Intercept 7.020153877 0.612401157 11.463326 3.036E-06 抵押贷款利率(%)x 1.515968166 0.076293201 19.870292 4.288E-08

所以线性回归直线方程为Y=7.020153877+1.515968166X。

(2)

抵押贷款利率与购房者支付能力关系图30.0y = 2.3849xR2 = 0.6539系列1线性 (系列1)购房者支付能力25.020.015.010.05.00.00.002.004.006.008.0010.0012.00抵押贷款利率

所以可决系数为0.6539,表示单位成本差异的65.39%能够被贷款利率与支付能力之间的线性关系所解释。

(3)

(4)

t-检验: 成对双样本均值分析 抵押贷款利率(%)x 购房者支付能力 y 平均 7.975 19.11 方差 0.923538889 2.165444444 观测值 10 10 泊松相关系数 0.99002042 假设平均差 0 df 9 t Stat -65.51448481 P(T<=t) 单尾 1.13523E-13 t 单尾临界 1.833112923 P(T<=t) 双尾 2.27046E-13 t 双尾临界 2.262157158 方差分析:单因素方差分析 SUMMARY 观测组 数 求和 平均 方差 抵押贷款利率(%)x 10 79.75 7.975 0.923538889 购房者支付能力 y 10 191.1 19.11 2.165444444 9

差异源 组间 组内 总计 SS df 619.9411 1 27.80085 18 647.742 19 方差分析 MS F P-value F crit 619.94 401.3884557 9.34838E-14 4.413873405 1.5445

五、时间序列分析

1.从国家统计局网站上搜集2000-2012年各年按不变价计算的GDP资料。要求:

(1)计算这段时间的经济增长率(即按不变价计算的GDP的平均增长速度); (2)用3期移动平均法预测2013年的GDP。 (3)建立一个趋势直线方程,预测2014年的GDP。 (1) 年份

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012

(2)

2013年GDP=(401512.8+473104.1+518942.1)/3= 464519.7

预测2013年GDP为464519.7

10

GDP指数 99214.55 109655.2 120332.7 135822.8 159878.3 184937.4 216314.4 265810.3 314045.4 340902.8 401512.8 473104.1 518942.1 增长速度

0.105232751 0.097373612 0.128727032 0.177110081 0.156738117 0.169663168 0.228814509 0.181464444 0.085520684 0.17779258 0.17830378 0.096887883

三期移动平均

109734.1367 121936.8733 138677.93 160212.8233 187043.38 222354.0367 265390.0567 306919.5167 352153.68 405173.22 464519.65

(3)

600000500000400000300000200000100000012345678910111213系列1线性 (系列1)y = 35521x + 8314.22R = 0.9457

根据直线方程预测2014年GDP为505608.2

2.教材第122页,第5题。

年份 人口数(万人) 年份 1999 8763 2000 8861 2001 8946 2002 9027

人口数(万人)

9100 9172 9243 9315

2003 2004 2005 2006

1999-2006年人口资料940093009200y = 77.679x + 8703.8人口数9100900089008800870001234年份56789系列1线性 (系列1)

根据直线方程预测2014年人口数为9402.911万人

11

3.某地区1992-2000年自行车的销售量数据见book8。要求:配合二次曲线(试用“回归”分析工具),算出各年的趋势值,画出二次曲线趋势图。

二次趋势图如下:

12

4.某啤酒生产企业2000-2005年各季度销售量如book9所示。要求: (1)运用趋势剔除法测定各季度季节比率; (2)建立恰当的趋势方程;

(3)考虑季节影响,预测2006年第一和第二季度的销售量。

13

(1)

(2)

销售量统计605040y = 0.6257x + 29.804销售量3020100051015时间202530系列1线性 (系列1)

趋势方程为y?0.6257x + 29.804

? 14

(3)

由于4个季节比率之和为398.508%,不等于400%,需要调整。 调整系数为 400% / 398.508% =1.003744

由趋势方程可知 X= 25 Y = 45.4465 X= 26 Y=46.0772

2006年第一季度销售量为 45.4465*79.22295% = 36.00406 2006年第一季度销售量为 46.0772*104.2365% = 48.02926

15