统计学练习题 第一章 导论
【重点】了解统计的科学涵义,明确统计学的学科性质及基本研究方法,掌握统计数据的特点及其不同类型,牢固掌握统计学的基本概念。
【难点】准确掌把数据不同类型,牢固掌握统计学的基本概念并结合实例分析。 思考题 1.1 1.2 1.3 1.4 1.5 1.6
什么是描述统计学、推断统计学?怎样理解描述统计学和推断统计学在探索事物数量规律性中的地位和作用?
统计学发展史上有哪几个主要学派? “统计学”一词有哪几种含义?
什么是统计学?怎样理解统计学与统计数据的关系?
统计数据可分为哪几种类型?不同类型的数据各有什么特点? 举例说明总体、样本、参数、统计量、变量这几个概念。
练习题
一、单项选择题
1、指出下面的数据哪一个属于分类数据( )
A、年龄 B、工资
C、汽车产量 D、购买商品的支付方式(现金、信用卡、支票) 2、指出下面的数据哪一个属于顺序数据( )
A、年龄 B、工资
C、汽车产量 D、员工对企业某项制度改革措施的态度(赞成、中立、反对)
3、某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的统计量是( )
A、2000个家庭 B、200万个家庭
C、2000个家庭的人均收入 D、200万个家庭的人均收入 4、了解居民的消费支出情况,则( )
A、居民的消费支出情况是总体 B、所有居民是总体
C、居民的消费支出情况是总体单位 D、所有居民是总体单位 5、统计学研究的基本特点是( )
A、从数量上认识总体单位的特征和规律
B、从数量上认识总体的特征和规律 C、从性质上认识总体单位的特征和规律 D、从性质上认识总体的特征和规律
6、一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的回答他们的消费支付方式是使用信用卡。这里的“月收入”是( ) A、分类变量 B、顺序变量
C、数值型变量 D、离散变量
7、要反映我国工业企业的整体业绩水平,总体单位是( ) A、我国每一家工业企业 B、我国所有工业企业
C、我国工业企业总数 D、我国工业企业的利润总额
8、一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选
0
择在网上购物的主要原因是“价格便宜”。这里的参数是( ) A、1000个消费者 B、所有在网上购物的消费者
C、所有在网上购物的消费者的平均消费额
D、1000个消费者的平均消费额
9、一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2006年城镇家庭的人均收入数据属于( )
A、分类数据 B、顺序数据
C、截面数据 D、时间序列数据
10、一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。他注意到,雇员要么从家里带饭,要么在公司餐厅就餐,要么在外面的餐馆就餐。他收集数据的方法属于( ) A、访问调查 B、邮寄调查 C、个别深度访问 D、观察调查 二、多项选择题
1、 欲了解某地高等学校科研情况( )
A、 该地所有高等学校所有的科研项目是总体 B、 该地所有的高等学校是总体
C、 该地所有高等学校的每一科研项目是总体单位 D、 该地每一所高等学校是总体单位
E、 该地所有高等学校的所有科研人员是总体
2、下表是《财富》杂志提供的按销售额和利润排列的500强公司的一个样本数据:
公司名称 Banc One CPC Intl. Tyson Foods ….…. 销售额(百万美元) 利润额(百万美元) 10272 9844 6454 …. …. 168.7 1427.0 580.0 87.0 …..… 48 行业代码 8 19 19 ….….. Woolworth 8092 在这个例子中( ) A、总体是500强公司,总体单位是表中所列的公司
B、总体是500强公司,总体单位是其中每一家公司 C、总体是500强公司,样本是表中所列的公司
D、总体是500强公司,样本是表中所列公司的销售额和利润额
E、总体是表中所有的公司,总体单位是表中每一家公司
3、一家具制造商购买大批木材,木材不干会影响家具的尺寸和形状。家具制造商从每批货中随机抽取5块木材检验湿度,如果其中任何一块木材的湿度超过标准,就把整批货退回。这个问题中( )
A、样本是从所有木材批次中随机抽取的部分批次木材
B、样本是从每批木材中随机抽取的5块木材
C、总体单位是从所有木材批次中随机抽取的部分批次木材 D、总体单位是购买的每一块木材 E、总体是购买的全部木材
1
三、判断分析题(判断正误,并简要说明理由)
统计运用大量观察法必须对所有的总体单位进行观察。( ) 四、简答题
1、报纸上报道一项民意调查的结果说:“43%的美国人对总统的整体表现感到满意。”报道最后写到:“这份调查是根据电话访问1210位成人所得,访问对象遍布美国各地。”这个调查的总体是什么?总体单位是什么?样本是什么?
2、一个公司正致力于测试一种新的电视广告的效果。作为测试的一部分,广告在某市的当地新闻节目中下午6:30播出。两天以后,一市场调查公司进行了电话采访以获取记忆率信息(观众记得看过广告的百分比)和对广告的印象。这一研究的总体是什么?总体单位是什么?样本是什么?这种情况下为什么使用样本?简要解释原因。 答案:
一、D,D,C,B,B;C,A,C,C,D。 二、BD,BC,BDE。
三、×,统计运用大量观察法的目的是消除个别事物的差异,显现想象总体的数量特征。只要部分单位对总体有代表性,只要对足够多的总体单位进行观察,也能达到这个目的。
四、1、答:总体是电视台覆盖范围内的所有成年观众;总体单位是电视台覆盖范围内的每一位成年观众;样本是受到电话采访的所有成年观众。
2、答:总体是所有在6:30看到广告的观众;总体单位是每一位在6:30看到广告的观众;样
本是受到电话采访的观众。 第二章 数据的搜集
【重点】 了解统计数据的不同渠道来源,掌握调查方案设计要领,学会调查问卷的设计,掌握抽样
调查的特点及其基本的 组织方式和方法。
【难点】调查问卷的设计及应用。 思考题 2.1 2.2 2.3 2.4 2.5 2.6
数据的来源有哪几种渠道?
常用的统计调查方式有哪些?
普查、抽样调查、重点调查和典型调查有何区别? 简述普查和抽样调查的特点。 调查方案包括哪几个方面的内容? 什么是问卷?它由哪几个部分组成?
练习题
一、单项选择题
1、从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为( )
A、简单随机抽样 B、分层抽样 C、系统抽样 D、整群抽样
2、为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是( )
A、简单随机抽样 B、分层抽样 C、系统抽样 D、整群抽样
3、为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名进行调查,这种调查方式是( )
A、简单随机抽样 B、分层抽样 C、系统抽样 D、整群抽样
2
4、在一项调查中,调查单位和填报单位( )
A、无区别,是一致的 B、有区别,是不一致的 C、无区别,是人为确定的 D、有区别,但有时是一致的
5、对家用电器的平均寿命进行调查,应该采用( )
A、普查 B、重点调查 C、典型调查 D、抽样调查二、多项选择题 1、下列属于原始数据的是( )
A、统计部门掌握的数据 B、说明总体单位特征的数据 C、说明总体特征的数据 D、还没有经过分组汇总的数据 E、直接向调查单位登记得到的数据
2、统计调查方案的内容包括有( )
A、确定调查目的 B、确定调查对象、调查单位和报告单位 C、确定调查项目和调查表 D、确定调查方法和调查时间 E、确定调查人员、经费等
3、重点调查的“重点”单位指( )
A、在国民经济中作用重要的单位
B、标志值在总体标志总量中所占比重比较大的单位 C、全部单位中的一小部分单位 D、在国民经济中地位显赫的单位 E、能反映总体基本情况的单位 三、简答题
1、抽样调查与重点调查、典型调查有哪些主要区别?
2、进行产品质量调查和市场占有率调查,你认为采用什么调查方法最合适?简要说明理由。 3、简述普查和抽样调查的特点。 答案:
一、A,D,C,D,D。
二、BDE,ABCDE,BCE。
三、1、答:选取调查单位的方式不同;调查的目的和作用不同;对代表性误差的处理不同。 2、答:抽样调查,理由略。
3、答:(1)普查:周期性;数据准确;规定统一时间;范围比较窄等; (2)抽样调查:经济性;时效性强;适应面广;准确性高等等。 第三章 数据的整理与显示
【重点】了数据整理的全过程,掌握分组方法及变量数列编制的原则,灵活设计统计表和统计图。 【难点】针对不同类型的数据进行图、表的设计,区分不同图、表的应用。 思考题 3.1 3.2 3.3 3.4 3.5
分类数据和顺序数据的整理和图示方法各有哪些?
数值型数据的分组方法有哪些?简述组距分组的步骤。 直方图与条形图有何区别?
茎叶图与直方图相比有什么优点? 统计表由哪几个主要部分组成?
练习题
一、单项选择题
3
1、在累计次数分布中,某组的向下累计次数表明( ) A、大于该组上限的次数是多少 B、大于该组下限的次数是多少 C、小于该组上限的次数是多少 D、小于该组下限的次数是多少 2、数据筛选的主要目的是( )
A、发现数据的错误 B、对数据进行排序
C、找出所需要的某类数据 D、纠正数据中的错误 3、样本或总体中各不同类别数值之间的比值称为( )
A、频率 B、频数 C、比例 D、比率 4、将比例乘以100得到的数值称为( )
A、频率 B、频数 C、比例 D、比率 5、下面的哪一个图形最适合描述结构性问题( )
A、条形图 B、饼图 C、雷达图 D、直方图
6、下面的哪一个图形适合比较研究两个或多个总体或结构性问题( )
A、环形图 B、饼图 C、直方图 D、茎叶图
7、将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,这样的分组方法称为( )
A、单变量值分组 B、组距分组 C、等距分组 D、连续分组 8、下面的哪一个图形最适合描述大批量数据分布的图形( )
A、条形图 B、茎叶图 C、直方图 D、饼图
9、由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反映原始数据分布的图形,称为( )
A、环形图 B、茎叶图 C、直方图 D、箱线图
10、10家公司的月销售额数据(万元)分别为72,63,54,54,29,26,25,23,23,20。下面哪种图形不宜用于描述这些数据( )
A、茎叶图 B、散点图 C、条形图 D、饼图
二、多项选择题
1、下列属于定性变量的有( )
A、职业 B、居住区域 C、体重 D、身高 E、汽车产量 2、下面的数列属于( )
身高(厘米) 150~155 155~160 160~165 合计
人数 40 100 60 200
比重(%) 20 50 30 100
A、变量数列 B、品质数列 C、等距数列 D、异距数列 E、闭口数列 三、简答题
1、数值型数据的分组方法有哪些? 2、直方图与条形图有何区别? 3、茎叶图与直方图相比有什么优点?
4
四、应用题
1、下面是一个班50个学生的经济学考试成绩:
88 98 83 68
56 85 64 74
91 34 65 94
79 74 69 81
69 48 99 67
90 100 64 81
88 75 45 84
71 95 76 53
82 60 63 91
79 92 69 24
84 62 81 83 69 84 29 66 75 94 (1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表,绘制直方图。 (2)用茎叶图将原始数据表现出来。
2、下表中的数据为2001年全国研究生入学考试报考某专业的12名考生的5门课程的成绩。 考生编号 英语 政治
1 66 69
2 44 66 25 62 56 3 39 58 20 85 45 4 58 56 36 81 62 5 52 68 21 64 70 6 34 40 4 54 63 7 74 73 82 73 76 8 71 65 42 78 86 9 51 62 28 68 65 10 41 48 35 66 21 11 64 58 39 80 74 12 51 64 19 75 73 专业课1 54 专业课2 90 专业课3 81 对英语和政治两门课程做直方图。 答案:
一、B,C,D,B,B;A,B,C,D,B。
二、AB,ACE。
三、1、答:主要有单变量值分组,这种分组方法通常只适合于离散变量,且在变量值较少的情况下
使用;在连续变量或变量值较多的情况下,通常采用组距分组,它是将全部变量值依次划分成若干个区间,并将这一区间的变量作为一组。 2、答:(1)条形图用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积
表示各组频数多少,矩形高度表示每一组的频数或频率,宽度表示各组组距,宽度和高度均有意义。(2)直方图的各矩形通常是连续排列;条形图则是分开排列。(3)条形图主要用于分类数据;
直方图主要用于数值型数据。
3、答:茎叶图是由“茎”“叶”两部分组成、反映原始数据分布的图形,其图形是由数字组成。
通过茎叶图,可以看数据的分布形状及数据的离散状况,与直方图相比,茎叶图既能给出数据的
分布状况,又能给出一个原始数据,即保留了原始数据的信息,而直方图不能给出原始数值。 四、1、解:(1) 组距 20~30 30~40 40~50 50~60 60~70 70~80 80~90
频数 2 1 2 2 13 8 12
百分比(%) 4.00 2.00 4.00 4.00 26.00 16.00 24.00
5
累积百分比(%) 4.00 6.00 10.00 14.00 40.00 56.00 80.00
90~100 100 合计
1412109 1 50
18.00 2.00 1
13129898.00 100.00
频8数6422012210000000011000345678~~~~~~~089900000023456按分数分组 (2) 茎 叶 2 3 4 5 6 7 8 9 10 合计 4 4 5 3 0 1 1 0 0 9 8 6 2 4 1 1 3 4 1 1 4 5 2 2 4 5 3 4 5 6 3 4 6 9 4 5 7 9 4 8 8 4 9 9 5 9 8 9 8 9 70~ 频数 2 1 2 2 13 8 12 9 1 50 占总数的比重 4.00% 2.00% 4.00% 4.00% 26.00% 16.00% 24.00% 18.00% 2.00% 1.00
课后练习题
3.1 某医院急诊病人就诊等待时间如下: 14 19 24 19 16 20 24 20 21 22 24 18 17 23 26 22 23 25 25 19 18 16 15 24 21 26 19 21 23 20 22 22 16 16 16 12 25 19 24 20 要求分5组。
(1) 构筑频数分布(包括相对频数);
(2) 需急诊服务的病人的等待时间在20分钟以上的所占的比例; (3) 绘制直方图;
(4) 上述数据显示了需急诊服务病人等待时间的何种状况。
6
3.2 电子协会雇员选择开始工作的时间
7:00 8:30 9:00 8:00 7:30 7:30 8:30 8:30 7:30 7:00 8:30 8:30 8:00 8:00 7:30 8:30 7:00 9:00 8:30 8:00
汇总数据,构建: (1) 频数分布
(2) 百分数频数分布
(3) 饼形图
(4) 汇总结果表明弹性时间系统中雇员有什么偏好
3.3 某行业管理局所属40个企业1999年的产品销售收入如下:(单位:万元)
152 124 129 116 100 103 92 95 127 104
105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108
97 88 123 115 119 138 112 146 113 126
根据上以数据进行适当的分组,编制频数分布表,绘制直方图和折线图,并计算出累积频数和累积频率。
3.4 根据下列数据绘制茎叶图。
75 68 52 97 45 48 50 91 38 82
36 59 64 72 63 80 71 67 76 85
3.5 某百货公司连续40天的商品销售额如下(单位:万元):
41 46 35
25 36 28
29 45 46
47 37 34
38 37 30
34 36 37
30 45 44
38 43 26
43 33 38
40 44 44
42 36 37 37 49 39 42 32 36 35
根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
3.6 某行业管理局所属40个企业1999年的产品销售收入数据(单位:万元)如下:
152 105 117 97 124 119 108 88 129 114 105 123 116 115 110 115 100 87 107 119 103 103 137 138 92 118 120 112 95 142 136 146 127 135 117 113 104 125 108 126 要求:
(1) 根据上面的数据进行适当分组,编制频数分布表,并计算累计频数和累计频率;
(2) 按规定,销售收入在125万元以上为先进企业,115万元~125万元为良好企业,105万元~
115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
第四章 数据分布特征的测度
【重点】掌握各类统计指标的计算方法和应用原则,并进行初步的分析。 【难点】结合实例准确进行集中趋势和离散程度的测度及分析。
7
思考题
4.1 偏度和峰度是描述频数分布的哪些特征的方法? 4.2 一组数据的分布特征可以从哪几个方面进行侧度? 4.3 简述众数、中位数和均值的特点及应用场合。
4.4 简述异众比率、四分位差、方差或标准差的适用场合。 4.5
标准分数有哪些用途? 4.6 为什么要计算离散系数? 练习题
一、单项选择题
1、一组数据排序后处于25%和75%位置上的值称为( ) A、众数 B、中位数 C、四分位数 D、均值 2、如果一个数据的标准分数是–2,表明该数据( )
A、比平均数高出2个标准差 B、比平均数低2个标准差
C、等于2倍的平均数 D、等于2倍的标准差
3、经验法则表明,当一组数据对称分布时,在均值加减1个标准差的范围内大约有( ) A、68%的数据 B、95%的数据 C、99%的数据 D、100%的数据 4、离散系数的主要用途是( )
A、反映一组数据的离散程度 B、反映一组数据的平均水平
C、比较多组数据的离散程度 D、比较多组数据的平均水平 5、离散系数( )
A、只能消除一组数据的水平对标准差的影响 B、只能消除一组数据的计量单位对标准差的影响
C、可以同时消除数据的水平和计量单位对标准差的影响 D、可以准确反映一组数据的离散程度
6、峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值( )
A、等于0 B、大于0 C、小于0 D、等于1 7、如果峰态系数K>0,表明该组数据是( )
A、尖峰分布 B、扁平分布 C、左偏分布 D、右偏分布
8、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。在上面的描述中,众数是( )
A、1200 B、经济管理学院 C、200 D、理学院
9、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。描述该组数据的集中趋势宜采用( )
A、众数 B、中位数 C、四分位数 D、均值
10、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用( ) A、众数 B、中位数 C、四分位数 D、均值 11、对于分类数据,测度其离散程度使用的统计量主要是( )
A、众数 B、异众比率 C、标准差 D、均值
12、甲、乙两组工人的平均日产量分别为18件和15件。若甲、乙两组工人的平均日产量不变,但是
8
甲组工人数占两组工人总数的比重下降,则两组工人总平均日产量( ) A、上升 B、下降 C、不变 D、可能上升,也可能下降 13、权数对平均数的影响作用取决于( )
A、各组标志值的大小 B、各组的次数多少 C、各组次数在总体单位总量中的比重 D、总体单位总量 14、当各个变量值的频数相等时,该变量的( )
A、众数不存在 B、众数等于均值
C、众数等于中位数 D、众数等于最大的数据值
15、有8名研究生的年龄分别为21,24,28,22,26,24,22,20岁,则他们的年龄中位数为( )
A、24 B、23 C、22 D、21 16、下列数列平均数都是50,在平均数附近散布程度最小的数列是( )
A、0 20 40 50 60 80 100 B、0 48 49 50 51 52 100 C、0 1 2 50 98 99 100
D、0 47 49 50 51 53 100
17、下列各项中,应采用加权算术平均法计算的有( ) A、已知计划完成百分比和实际产值,求平均计划完成百分比 B、已知计划完成百分比和计划产值,求平均计划完成百分比 C、已知各企业劳动生产率和各企业产值,求平均劳动生产率
D、已知生产同一产品的各企业产品单位成本和总成本,求平均单位成本
18、如果你的业务是提供足球运动鞋的号码,那么,哪一种平均指标对你更有用?( ) A、算术平均数 B、几何平均数 C、中位数 D、众数
19、假定某人5个月的收入分别是1800元,1840元,1840元,1840元,1840元,8800元,反映其月收入一般水平应该采用( )
A、算术平均数 B、几何平均数 C、众数 D、调和平均数
20、某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是( )
A、众数>中位数>均值 B、均值>中位数>众数 C、中位数>众数>均值 D、中位数>均值>众数 二、多项选择题
1、变量数列中,各组变量值与频数的关系是( )
A、各组变量值作用的大小由各组频数的多少反映 B、各组变量值作用的大小由各组变量值的大小反映 C、频数越大的变量值对总体一般水平的影响也越大 D、频数越大的变量值对总体一般水平的影响越小 E、频数越大,变量值也越大
2、应该用加权算术平均法计算平均数的有( ) A、已知各组职工工资水平和各组职工人数,求平均工资 B、已知各组职工工资水平和各组工资总额,求平均工资
C、已知各组计划完成百分数和各组计划产值,求平均计划完成百分数 D、已知各组计划完成百分数和各组实际产值,求平均计划完成百分数 E、已知各组职工的劳动生产率和各组职工人数,求平均劳动生产率
9
3、下列应该用几何平均法计算的有( )
A、生产同种产品的三个车间的平均合格率 B、平均发展速度 C、前后工序的三个车间的平均合格率 D、平均劳动生产率 E、以复利支付利息的年平均利率 4、下列说法那些是正确的?( )
A、应该用均值来分析和描述地区间工资水平
B、宜用众数来描述流行的服装颜色
C、考试成绩中位数的含义是有一半考生的成绩超过此数
D、在数据组高度偏态时,宜用中位数而不是用众数来作为平均数 E、一般常用算术平均法来计算年平均增长率 三、填空题
1、某班的经济学成绩如下表所示: 43 77 84
55 77 86
56 78 87
56 79 88
59 80 88
60 81 89
67 82 90
69 83 90
73 83 95
75 83 97
该班经济学成绩的平均数为 ,众数为 ,中位数为 ,上四分位数为 ,下四分位数为 ,四分位差为 ,离散系数为 。从成绩分布上看,它属于 ,你觉得用 描述它的集中趋势比较好,理由 。
2、在某一城市所做的一项抽样调查中发现,在所抽取的1000个家庭中,人均月收入在200~300元的家庭占24%,人均月收入在300~400元的家庭占26%,在400~500元的家庭占29%,在500~600元的家庭占10%,在600~700元的家庭占7%,在700元以上的占4%。从此数据分布状况可以判断: (1)该城市收入数据分布形状属 (左偏还是右偏)。
(2)你觉得用均值、中位数、众数中的 ,来描述该城市人均收入状况较好。理由是 。
(3)从收入分布的形状上判断,我们可以得出中位数和均值中 数值较大。上四分位数所在区间为 ,下四分位数所在区间为 。 四、判断分析题(判断正误,并简要说明理由)
1、 并非任意一个变量数列都可以计算其算术平均数、中位数和众数。( ) 2、 某企业某年各季度销售额和利润资料如下: 季度 销售额(百万元) 利润率(%) 1 150 30 2 180 32 3 200 35 4 210 36 则该年各季度平均利润率为(30%+32%+35%+36%)/4=33.25%。( ) 3、某企业计划劳动生产率比上年提高10%,实际只提高了5%,表明劳动生产率计划只完成了一半。( )
4、若数据组的均值是450,则所有的观察值都在450周围。( ) 五、简答题
1、简述众数、中位数和均值特点及应用场合。
2、某公司下属两个企业生产同一种产品,其产量和成本资料如下:
10
甲企业 乙企业 合计 基期 单位成本(元) 产量(吨) 600 700 1200 1800 报告期 单位成本(元) 产量(吨) 600 700 2400 1600 660 300 640 4000 试问:报告期与基期相比,该公司下属各企业单位成本都没有变化,但该公司总平均成本却下降了20元,这是为什么?
3、一项民意测验询问了2050个成年人,“你对今天的生活状况满意程度如何?”回答分类为满意、不满意和说不清。
(1)这一调查的样本规模有多大?
(2)回答的答案是属于品质型还是数量型?
(3)使用平均数或百分比作为对这一问题的数据的汇总,哪一个更有意义? (4)回答中,8%的人说他们对今天的生活状况不满意,作出这种回答的人是多少? 六、计算题
1、下表中的数据反映的是1992年到2001年我国职工工资和居民消费价格增长指数:
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
份
工工资增长数(%)
118.5 124.8 135.4 121.7 112.1 103.6 100.2 106.2 107.9 111.0 106.4 114.7 124.1 117.1 108.3 102.8 99.2
98.6
100.4 100.7
民消费价格
数(%)
试根据上表数据比较我国1992年到2001年间职工工资平均增长指数与平均居民消费价格指数的大小。
2、下面是甲地区空气质量指数(0~50表示良好,50~100表示适中)的一组数据:28,42,58,48,45,55,60,49,50。
(1)计算全距、方差和标准差;
(2)已知同期观察到的乙地区空气质量指数的平均数为48.5,标准差为11.66,试对两地区的空气质量作出比较。
3、 某一牧场主每年饲养600头牛。现在有人向他推荐一种个头较小的改良品种牛,每头牛吃草量较少,这样在原来同样面积的牧场上可以多养150头牛。饲养原品种牛和改良品种牛的利润如下: 净利润(元/头) –200 0 200 400 合计 原品种牛 频数 36 12 185 367 600 频率(%) 6 2 31 61 100 改良品种牛 频率(%) 1 2 57 40 100 (1)牧场主应该选择哪一种品种?为什么? (2)改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变
化时,牧场主会改变他在(1)中所做的选择?
11
答案:
一、C,B,A,C,C;A,A,B,A,B;
B,B,C,A,B;B,B,D,C,B 二、AC,ACE,BCE,ABCD。
三、1、77,83,80.5,68.5,87.25,18.75,0.173。
左偏,中位数,是数据分布明显左偏又是顺序数据。
2、(1)右偏;(2)中位数,数据分布明显右偏,频数较多的几个组家庭百分比相差不大;(3)均值,300~400,400~500。
四、1、√,任意一个变量数列都可以计算算术平均数和中位数,但众数的计算和应用则是又条件的,
对于呈均匀分布、U形分布或J形分布的数列,众数就不存在或没有意义,此外对于总体单位数
不多的情况,众数也缺乏代表性。 2、×,应为
150?0.3?180?0.32?200?0.35?210?0.36150?180?200?210248.2740
==33.54%。
100%?50%?10% 3、×,劳动生产率计划完成程度为=
1050%=95.45%。
4、√,均值是一组数列的集中趋势,所有的观察值以450为中心,有的比它大,有的比它小。 五、1、答:众数是一组数据中出现最多的变量值,是位置代表值,不受极端值的影响,适合于作为
分类数据的集中趋势测度值;中位数是一组数据经过排序后,处于中间位置的变量值,是位置代表值,不受极端值的影响,适合于作为顺序数据的集中趋势测度值;均值是一组数据相加后除以数据个数而得到的结果,利用了全部数据信息,主要适用于数值型数据,当数据呈对称分布或接近对称分布时,应选择均值作为集中趋势代表值,但易受极端值的影响,对于偏态分布数据,考虑选择众数或中位数等位置代表值。
2、答:虽然两个组平均数即两个企业的平均成本不变,但由于两个企业产量占公司总产量的比重(权数)发生了变化,所以总平均数就会变化。由于单位成本较低的甲企业的产量所占比重上升而单位成本较高的乙企业产量比重相应相应下降,这种变化必然导致总平均数下降。 3、答:(1)2050;(2)品质型;(3)百分比;(4)164。 六、1、解:根据几何平均数公式计算职工工资平均增长指数W和平均消费价格指数C为: W=101.185?1.248?......?1.11=1.137
10 C=1.064?1.147?......?1.007=1.069
可以看出W>C,因此1992年到2001年间职工工资平均增长速度快于居民消费价格的平均增长速度。
2、解:(1)R=32;x=48.333;σ2=82.444;σ=9.0799;
(2)Vσ甲=0.188,Vσ乙=0.24。可见两地区空气质量指数的平均水平很接近,甲地区微微
优于乙地区;而从标准差或标准差系数来看,甲地区空气质量状况更稳定。总的来说,
12
甲地区空气质量状况较好。
3、解:(1)x原品种=294元 x改良品种=272元; 原品种牛的利润总额=294×600=176400元; 改良品种牛的利润总额=272×750=204000元; 所以应该选择改良品种牛。
(2)若改良品种牛的平均利润少于235.2(176400÷750)元时,牧场主会选择原品种牛。 课后练习题
4.1 某公司生产某产品的15个企业,按产品的单位成本分组数据如下,试计算15个企业的平均单
位成本。
单位成本(元) 10—12 12—14 14—18 合计 4.2
企业数 2 7 6 各组产量占比重(%) 22 40 38 15 100 两个企业产品生产的成本数据如下表所示,指出哪个企业的平均成本第,原因何在? 产品 A B C 单位成本 10 20 30 甲厂总成本 2000 3000 1500 农户数 3 8 12 5 2 1 乙厂总成本 3200 1600 1500 单位:元 4.3 某地区农户年收入分组数据如下: 年收入(元) 2000—2500 2500—3000 3000—3500 3500—4000 4000—4500 4500—5000 计算该地区农户收入的平均数、中位数、众数和标准差。
4.4 某校工商管理系99级学生统计学课程的考试结果如下:
考试成绩 40—50 50—60 60—70 70—80 80—90 90—100 合计
学生数 10 24 51 68 32 15 200 13
试计算学生成绩分布的偏度系数和峰度系数,并作简要说明。
4.5 10个大学男子篮球队获胜得分如下表: 获胜队 波士顿大学 东北大学 弗拉格勒大学 马凯特大学 佩珀丁大学 得分 55 87 89 70 61 获胜队 埃默里大学 昆斯大学 米尔萨普斯大学 沃特堡大学 旧金山大学 得分 56 77 89 64 84 (1) 计算数据的平均数和标准差 (2) 在另一场比赛中,约克大学队以108:75战胜纽约大学队。运用标准化数值确定该得分是否
为异常值。为什么? 4.6 某百货公司6月份各天的销售额数据如下(单位:万元): 257 271 272
276 292 284
297 261 268
252 281 303
238 301 273
310 274 263
240 267 322
236 280 249
265 291 269
278 258 295
(1)计算该百货公司日销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。
4.7 一家公司在招收职员时,首先要通过两项能力测试。在A 项测试中,其平均分数是 100分,
标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测
试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理4.8
想?
某班共有60名学生,在期末的统计学考试中,男生的平均考试成绩为75分,标准差为6分;女生的平均考试成绩为80分,标准差为6分。根据给出的条件回答下面的问题:
(1)如果该班的男女学生各占一半,全班考试成绩的平均数是多少?标准差又是多少? (2)如果该班中男生为36人,女生为24人,全班考试成绩的平均数是多少?标准差又是多少? (3)如果该班中男生为24人,女生为36人,全班考试成绩的平均数是多少?标准差又是多少? (4)比较(1)、(2)和(3)的平均考试成绩有何变化?并解释其变化的原因。 (5)比较(2)和(3)的标准差有何变化?并解释其原因。
(6)如果该班的男女学生各占一半,全班学生中考试成绩在64.5分~90.5分的人数大概有多少? 4.9
已知某地区农民家庭按年人均收入分组的资料如下: 按人均收入分组(元) 100以下 100~200 200~300 300~400 400~500 500~600 600以上 合计
家庭户数占总户数比重(%) 2.3 13.7 19.7 15.2 15.1 20.0 14.0 100
计算该地区平均每户人均收入的均值及标准差。
14
4.10 对10名成年人和10名幼儿的身高(cm)进行抽样调查,结果如下:
成年组 166 169 172 177 180 170 172 174 168 173
幼儿组
68
69
68
70
71
73
72
73
74
75
(1)要比较成年组和幼儿组的身高差异,你会采用什么样的侧度值?为什么?
(2)比较分析哪一组的身高差异大? 第五章 概率与概率分布
【重点】掌握离散型概率分布和连续型概率分布。 【难点】区分不同类型随机变量的概率分布。 思考题
5.1 全概率公式和逆概率公式分别用于什么场合? 5.2 基本事件与复合事件。 5.3 概率的分配(计算)方法。
5.4 常用的离散、连续变量的概率分布。
练习题
一、单项选择题
1、根据概率的统计定义,可用以近似代替某一事件的概率的是( )。 A、大量重复试验中该随机事件出现的次数占试验总次数的比重 B、该随机事件包含的基本事件数占样本空间中基本事件总数的比重
C、大量重复随机试验中该随机事件出现的次数
D、专家估计该随机事件出现的可能性大小
2、下列事件中不属于严格意义上的随机事件的是( )。
A、从一大批合格率为90%的产品中任意抽出的一件产品是不合格品 B、从一大批合格率为90%的产品中任意抽出的20件产品都是不合格品 C、从一大批优质品率为15%的产品中任意抽出的20件产品都是优质品 D、从一大批合格率为100%的产品中任意抽出的一件产品是合格品
3、假设A、B为两个互斥事件,则下列关系中,不一定正确的是( )。 A、P(A+B)=P(A)+P(B) B、P(A)=1-P(B)
C、P(AB)=0 D、P(A|B)=0
4、同时抛3枚质地均匀的硬币,巧合有2枚正面向上的概率为( )。
A、0.125 B、0.25 C、0.375 D、0.5 5、下列由中心极限定理得到的有关结论中,正确的是( )。 A、只有当总体服从正态分布时,样本均值才会趋于正态分布 B、只要样本容量n充分大,随机事件出现的频率就等于其概率
C、无论样本容量n如何,二项分布概率都可以用正态分布近似计算
D、不论总体服从何种分布,只要样本容量n充分大,样本均值趋于正态分布 二、多项选择题
1、下列关于随机变量的数学期望的表述中正确的是( )。
A、它又称为随机变量的均值
B、它表示该随机变量所有可能取值的平均水平 C、它度量的是随机变量的离中趋势
15
D、任一随机变量都存在一个有限的数学期望
E、它与加权算术平均数的不同之一是它以概率或分布密度为权数 2、下列关于几种概率分布之间的关系的陈述中,正确的有( ):
A、二点分布(0-1分布)是二项分布的特例
B、当n很大而p又很小时,二项分布可用参数λ=np的泊松分布近似 C、当N很大而M / N很小是,超几何分布趋于二项分布
D、当n>30时,不管p大小,二项分布的概率都可用正态分布来近似计算 E、当n无限增大时,二项分布趋近于正态分布 三、判断分析题(判断正误,并简要说明理由) 1、频率的极限是概率。
2、若某种彩票中奖的概率为5?,那么随机购买1000注彩票将有5注中奖。 四、简答题
1、全概率公式与逆概率公式分布用于什么场合? 五、计算题 1、某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:
(1)使用寿命在500小时以下的灯管占多大比例? (2)使用寿命在850~1450小时的灯管占多大比例? (3)以均值为中心,95%的灯管的使用寿命在什么范围内? 答案:
一、A,D,B,C,D;
二、ABE; ABCE
三、1、错误。当观察次数n很大时,随机事件发生的频率的稳定值就是概率,频率可作为概率的近似值。但是并不能认为概率就是频率的极限。因为当n很大时,频率稳定地在概率附近摆到,二者出现显著偏差的可能性极小,但并不意味着二者的偏差肯定越来越小。
2、错误。中奖的概率为5?,意味着在试验次数非常多的情况下,平均每1000注彩票大约有5注会中奖。并不意味着每1000注彩票必然有5注中奖。
四、1、全概率公式:某一事件B的发生有各种可能的原因Ai(i=1,2,?,n),每一Ai都可能导致B发生,求B发生的概率。
逆概率公式:在事件B已发生的条件下,寻找导致A发生的每个原因Ai的概率。 五、1、(1)P{X<500}=Φ(
500?1050200)=Φ(-2.75)
=1-Φ(2.75)=1-0.99702=0.00298
(2)P{850≤X≤1450}=Φ(
1450?1050200)- Φ(
850?1050200)
=Φ(2)- Φ(-1)=0.97725-0.15865=0.8186
(3) 由标准正态函数分布表可知,P{|Z|≤1.96}=0.95,即有: P{|Z|=|
X?1050200|≤1.96}= P{|X-1050|≤392}=0.95
所以95%的灯管的使用寿命在均值左右392小时(658~1442小时)的范围内。
16
第六章 抽样与参数估计
【重点】深刻理解抽样分布的概念及中心极限定理的意义,灵活掌握均值和比例的区间估计方法的应
用。
【难点】在不同条件下的区间估计。 思考题
6.1 什么是抽样误差?影响抽样误差的主要因素有哪些?
6.2 确定必要的抽样数目(样本容量)有何意义?必要抽样数目受哪些因素影响? 6.3 什么叫统计量?什么是参数?评价统计量优劣有哪些标准? 6.4 分层抽样与整群抽样的分组作用及方法各是什么? 6.5 解释抽样推断的含义。
6.6 解释简单随机抽样、分层抽样、系统抽样和整群抽样的含义。 6.7 什么是抽样分布?
6.8 样本统计量的分布与总体分布的关系是什么?
6.9 样本均值抽样分布的两个主要特征值是什么? 它们与总体参数有什么关系? 练习题
一、单项选择题
1、某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( )
A、样本容量为10 B、抽样误差为2 C、样本平均每袋重量是估计量 D、498是估计值
2、设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都服从或近似服从趋近于( )
A、N(100,25) B、N(100,5/
n)
C、N(100/n,25) D、N(100,25/n)
3、在其他条件不变的情况下,要使置信区间的宽度缩小一半,样本量应增加( ) A、一半 B、一倍 C、三倍 D、四倍
4、在其他条件不变时,置信度(1–α)越大,则区间估计的( )
A、误差范围越大 B、精确度越高
C、置信区间越小 D、可靠程度越低
5、其他条件相同时,要使抽样误差减少1/4,样本量必须增加( )
A、1/4 B、4倍 C、7/9 D、3倍 6、在整群抽样中,影响抽样平均误差的一个重要因素是( )
A、总方差 B、群内方差 C、群间方差 D、各群方差平均数
7、在等比例分层抽样中,为了缩小抽样误差,在对总体进行分层时,应使( )尽可能小 A、总体层数 B、层内方差 C、层间方差 D、总体方差
8、一般说来,使样本单位在总体中分布最不均匀的抽样组织方式是( ) A、简单随机抽样 B、分层抽样 C、等距抽样 D、整群抽样
9、为了了解某地区职工的劳动强度和收入状况,并对该地区各行业职工的劳动强度和收入情况进行对比分析,有关部门需要进行一次抽样调查,应该采用( ) A、分层抽样 B、简单随机抽样 C、等距抽样 D、整群抽样
17
10、某企业最近几批产品的优质品率分别为88%,85%,91%,为了对下一批产品的优质品率进行抽样检验,确定必要的抽样数目时,P应选( )
A、85% B、87.7% C、88% D、90% 二、多项选择题
1、影响抽样误差大小的因素有( )
A、总体各单位标志值的差异程度 B、调查人员的素质 C、样本各单位标志值的差异程度 D、抽样组织方式 E、样本容量
2、某批产品共计有4000件,为了了解这批产品的质量,从中随机抽取200件进行质量检验,发现其中有30件不合格。根据抽样结果进行推断,下列说法正确的有( ) A、n=200 B、n=30 C、总体合格率是一个估计量
D、样本合格率是一个统计量 E、合格率的抽样平均误差为2.52%
3、用样本成数来推断总体成数时,至少要满足下列哪些条件才能认为样本成数近似于正态分布( )
A、np≤5 B、np≥5 C、n(1–p)≥5 D、p≥1% E、n≥30
三、填空题
1、对某大学学生进行消费支出调查,采用抽样的方法获取资料。请列出四种常见的抽样方
法: 、 、 、 ,当对全校学生的名单不好获得时,你认为 方法比较合适,理由
是 。 四、简答题
1、分层抽样与整群抽样有何异同?它们分别适合于什么场合? 2、解释抽样推断的含义。 五、计算题
1、某糖果厂用自动包装机装糖,每包重量服从正态分布,某日开工后随机抽查10包的重量如下:494,495,503,506,492,493,498,507,502,490(单位:克)。对该日所生产的糖果,给定置信度为95%,试求:
(1)平均每包重量的置信区间,若总体标准差为5克; (2)平均每包重量的置信区间,若总体标准差未知;
(t0.025,9?2.2622,t0.025,10?2.2281,t0.05,9?1.8331,t0.05,10?1.8125);
2、某广告公司为了估计某地区收看某一新电视节目的居民人数所占比例,要设计一个简单随机样本的抽样方案。该公司希望有90%的信心使所估计的比例只有2个百分点左右的误差。为了节约调查费用,样本将尽可能小,试问样本量应该为多大?
3、为调查某单位每个家庭每天观看电视的平均时间是多长,从该单位随机抽取了16户,得样本均值为6.75小时,样本标准差为2.25小时。
(1)试对家庭每天平均看电视时间进行区间估计。
(2)若已知该市每个家庭看电视时间的标准差为2.5小时,此时若再进行区间估计,并且将边际
误差控制在(1)的水平,问此时需要调查多少户才能满足要求?(α=0.05) 答案:
18
一、B,D,C,A,C;C,B,D,A,A。 二、ADE,ADE,BCE。
三、简单随机抽样,分层抽样,等距抽样,整群抽样,分层抽样,不用调查单位的名单,以院系为单位,而且各院系的消费差异也大,不宜用整群抽样。
四、1、答:都要事先按某一标志对总体进行划分的随机抽样。不同在于:分层抽样的划分标志与调
查标志有关,而整群抽样不是;分层抽样在层内随机抽取一部分,而整群抽样对一部分群做全面调查。分层抽样用于层间差异大而层内差异小,以及为了满足分层次管理决策时;而整群抽样用于群间差异小而群内差异大时,或只有以群体为抽样单位的抽样框时。
2、答:简单说,就是用样本中的信息来推断总体的信息。总体的信息通常无法获得或者没有必
要获得,这时我们就通过抽取总体中的一部分单位进行调查,利用调查的结果来推断总体的数量
特征。
五、1、解:n=10,小样本 (1)方差已知,由x±zα/2
?n得,(494.9,501.1)
(2)方差未知,由x±tα/2
2sn得,(493.63,502.37)
z?p?(1?p)1.6448?0.5?0.5 2、解:n=?/2==1691 220.02?x2 3、解:(1)x±tα/2
sn=6.75±2.131×
2.2516=(5.55,7.95)
(2)边际误差E= tα/2
sn=2.131×
2.2516=1.2
n=
z?/2??E222=
1.962?2.5221.2=17
课后练习题
6.10 设有一个容量为40,样本均值为25,总体标准差为5的随机样本。要求,
(1) 计算抽样平均误差
(2) 在95%的概率下求抽样极限误差 (3) 建立总体均值的90%置信区间。
6.11 记录20次电话预订机票的时间(分钟)如下:
2.1 10.4 4.8 5.5 5.9 10.5 4.5 4.8 3.3 5.8
2.8 6.6 7.5 4.8 5.5 3.5 5.3 3.6 7.8 6.0 (1) 20次电话预订机票平均时间的点估计是多少? (2) 假定总体服从正态分布,求总体平均时间的95%置信区间
19
(3) 计算预订时间在3分钟以下的90%置信区间。
6.12 某大学有5000名学生,近期资料表明学生的人均月生活费的标准差为35元,现采用不重复抽样
方法进行调查,应抽取多少人能以95%的置信度保证抽样误差不超过10元。 6.13 从某企业2000名工人中随机抽取50人,调查工资水平。结果如下表:
工资水平(元) 500以下 工人数(人) 8 500—700 20 700—900 16 900以上 6 根据表中资料(1)计算样本平均工资和抽样平均误差
(2)以95%的置信度估计该企业平均工资和工资总额的置信区间。 6.14 对某海滨游客进行调查,初步了解有60%来自非本地区。
(1) 当误差范围不超过6%时,应抽取多大样本?
(2) 当误差范围不超过3%时,应抽取多大样本?
6.15 己知某种电子管的使用寿命服从正态分布。从一批电子管中随机抽取100只,检测结果,样本平均寿命为1950小时,标准差为300小时。试求这批电子管的平均寿命的点估计值和置信区间(置
信度为95%)。
6.16 某公司要调查顾客对该公司新推出的一种营养饮料的喜欢情况。如果要在95%的置信度下使抽
样误差不超过0.05,在下列情况下的样本容量如何? (1) 初步估计60%的顾客喜欢此饮料 (2) 没有资料可用来估计顾客的喜欢情况。 6.17 某药厂从成品库随机抽取100瓶检查药片数量,结果平均每瓶101片,标准差为3片。试以99.73%
的概率推断成品库中该种药平均每瓶数量的置信区间。若允许误差减少到原来的1/2,其它条件不变,应抽取多少瓶?
6.18 某快餐店想要估计每位顾客午餐的平均消费金额,在为期3周的时间里选取49名顾客组成了一
个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准差;
(2)在95%的置信水平下,求边际误差;
(3)如果样本均值为120元,求总体均值95%的置信区间。 6.19 从一个正态总体中随机抽取容量为8的样本,各样本值分别为: 10 8 12 15 6 13 5 11 求总体均值95%的置信区间。 第七章 假设检验
【重点】深刻理解假设检验的逻辑思想,了解假设检验含义和具体方法。 【难点】区分不同条件选择检验方法。 思考题
7.1 理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的规则。 7.2 7.3
检验统计量具备怎样的特征和用途?
第一类错误和第二类错误分别是什么?它们发生的概率大小之间存在怎样的关系?
7.4 简述假设检验的一般步骤。 练习题 一、单项选择题
1、按设计标准,某自动食品包装及所包装食品的平均每袋中量应为500克。若要检验该机实际运行状况是否符合设计标准,应该采用( )。
20
A、左侧检验 B、右侧检验
C、双侧检验 D、左侧检验或右侧检验
2、假设检验中,如果原假设为真,而根据样本所得到的检验结论是否定元假设,则可认为( )。
A、抽样是不科学的 B、检验结论是正确的
C、犯了第一类错误 D、犯了第二类错误
3、当样本统计量的观察值未落入原假设的拒绝域时,表示( )。
A、可以放心地接受原假设 B、没有充足的理由否定与原假设
C、没有充足的理由否定备择假设 D、备择假设是错误的
4、进行假设检验时,在其它条件不变的情况下,增加样本量,检验结论犯两类错误的概率会( )。
A、都减少 B、都增大
C、都不变 D、一个增大一个减小 5、关于检验统计量,下列说法中错误的是( )。 A、检验统计量是样本的函数 B、检验统计量包含未知总体参数
C、在原假设成立的前提下,检验统计量的分布是明确可知的 D、检验同一总体参数可以用多个不同的检验统计量 二、多项选择题
1、关于原假设的建立,下列叙述中正确的有( )。
A、若不希望否定某一命题,就将此命题作为原假设
B、尽量使后果严重的错误成为第二类错误
C、质量检验中若对产品质量一直很放心,原假设为“产品合格(达标)”
D、若想利用样本作为对某一命题强有力的支持,应将此命题的对立命题作为原假设 E、可以随时根据检验结果改换原假设,以期达到决策者希望的结论 2、在假设检验中,α与β的关系是( )。
A、α和β绝对不可能同时减少
B、只能控制α,不能控制β
C、在其它条件不变的情况下,增大α,必然会减少β D、在其它条件不变的情况下,增大α,必然会增大β E、增大样本容量可以同时减少α和β
三、判断分析题(判断正误,并简要说明理由)
1、对某一总体均值进行假设检验,H0:X=100,H1:X≠100。检验结论是:在1%的显著性水平下,应拒绝H0。据此可认为:总体均值的真实值与100有很大差异。
2、有个研究者猜测,某贫困地区失学儿童中女孩数是男孩数的3倍以上(即男孩数不足女孩数的1/3)。为了对他的这一猜测进行检验,拟随机抽取50个失学儿童构成样本。那么原假设可以为:H0:P≤1/3。 四、简答题
1、采用某种新生产方法需要追加一定的投资。但若根据实验数据,通过假设检验判定该新生方法能够降低产品成本,则这种新方法将正式投入使用。
(1)如果目前生产方法的平均成本是350元,试建立合适的原假设和备择假设。 (2)对你所提出的上述假设,发生第一、二类错误分别会导致怎样的后果? 五、计算题
21
1、某种感冒冲剂的生产线规定每包重量为12克,超重或过轻都是严重的问题。从过去的资料知σ是0.6克,质检员每2小时抽取25包冲剂称重检验,并做出是否停工的决策。假设产品重量服从正态分布。
(1)建立适当的原假设和备择假设。
(2)在α=0.05时,该检验的决策准则是什么? (3)如果x=12.25克,你将采取什么行动? (4)如果x=11.95克,你将采取什么行动? 答案:
一、1、C 2、C 3、B 4、A 5、B
二、1、CD 2、CE 三、1、错误。“拒绝原假设”只能说明统计上可判定总体均值不等于100,但并不能说明它与100之
间的差距大。
2、错误。要检验的总体参数应该是一个比重,因此应该将男孩和女孩的人数的比率转换为失学儿童中女孩所占的比例P(或男孩所占的比例P*)所以原假设为:H0:P=3/4(或P≤3/4);H1:P>3/4。
也可以是:H0:P*=1/4(或P≥1/4);H1:P*<1/4。 四、1、(1)H0:x≥350;H1:x<350。
(2)针对上述假设,犯第一类错误时,表明新方法不能降低生产成本,但误认为其成本较低而被投入使用,所以此决策错误会增加成本。犯第二类错误时,表明新方法确能降低生产成本,但误认为其成本不低而未被投入使用,所以此决策错误将失去较低成本的机会。 五、1、(1)H0:μ=120;H1:μ≠12。 (2)检验统计量:Z=
x??0?/n。在α=0.05时,临界值zα/2=1.96,故拒绝域为|z|>1.96。
(3) 当x=12.25克时,Z=
x??0?/=
12.25?120.6/25=2.08。
n 由于|z|=2.08>1.96,拒绝H0:μ=120;应该对生产线停产检查。 (4) 当x=11.95克时,Z=
x??0?/=
11.95?120.6/25=-0.42。
n 由于|z|=-0.42<1.96,不能拒绝H0:μ=120;不应该对生产线停产检查。
第八章 相关与回归分析
【重点】明确相关关系,函数关系,因果关系,掌握基本的回归分析和预测方法,能应用实际资料构建一元线性回归模型,并借助计算机进行系统分析。
【难点】多元线性回归分析和预测方法的准确运用。 思考题
8.1 什么是函数关系?什么是相关关系?它们有何区别与联系? 8.2 相关关系有哪些分类?
22
8.3 8.4 8.5 8.6 8.7 8.8
相关系数与判定系数的关系。
解释相关关系的含义,说明相关关系的特点。 简述相关系数的取值及其意义。
解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的关系。 在回归分析中,F检验和t检验各有什么作用? 什么是置信区间估计和预测区间估计?二者有何区别?
练习题
一、单项选择题
1、下面的关系中不是相关关系的是( )
A、身高与体重之间的关系 B、工资水平与工龄之间的关系
C、农作物的单位面积产量与降雨量之间的关系 D、圆的面积与半径之间的关系
2、具有相关关系的两个变量的特点是( )
A、一个变量的取值不能由另一个变量唯一确定 B、一个变量的取值由另一个变量唯一确定
C、一个变量的取值增大时另一个变量的取值也一定增大 D、一个变量的取值增大时另一个变量的取值肯定变小 3、下面的假定中,哪个属于相关分析中的假定( )
A、两个变量之间是非线性关系
B、两个变量都是随机变量
C、自变量是随机变量,因变量不是随机变量 D、一个变量的数值增大,另一个变量的数值也应增大
4、如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称这两个变量之间为( )
A、完全相关关系 B、正线性相关关系 C、非线性相关关系 D、负线性相关关系 5、根据你的判断,下面的相关系数取值哪一个是错误的( )
A、–0.86 B、0.78 C、1.25 D、0
6、设产品产量与产品单位成本之间的线性相关关系为–0.87,这说明二者之间存在着( ) A、高度相关 B、中度相关 C、低相关 D、极弱相关
7、在回归分析中,描述因变量y如何依赖于自变量x和误差项ε的方程称为( )
A、回归方程 B、回归模型 C、估计回归方程 D、经验回归方程 8、在回归模型y=?0??1x??中,ε反映的是( )
A、由于x的变化引起的y的线性变化部分 B、由于y的变化引起的x的线性变化部分
C、除x和y的线性关系之外的随机因素对y的影响 D、由于x和y的线性关系对y的影响
9、如果两个变量之间存在负相关关系,下列回归方程中哪个肯定有误( )
??A、y=25–0.75x B、y= –120+ 0.86x
23
??C、y=200–2.5x D、y= –34–0.74x 10、说明回归方程拟合优度的统计量是( C )
A、相关系数 B、回归系数 C、判定系数 D、估计标准误差
11、判定系数R2是说明回归方程拟合度的一个统计量,它的计算公式为( )
A、
SSRSST B、
SSRSSE C、
SSESST D、
SSTSSR
12、已知回归平方和SSR=4854,残差平方和SSE=146,则判定系数R2=( )
A、97.08% B、2.92% C、3.01% D、33.25%
13、一个由100名年龄在30~60岁的男子组成的样本,测得其身高与体重的相关系数r=0.45,则下列陈述中不正确的是( )
A、较高的男子趋于较重 B、身高与体重存在低度正相关 C、体重较重的男子趋于较高 D、45%的较高的男子趋于较重 14、下列回归方程中哪个肯定有误( )
??A、y=15–0.48x,r=0.65 B、y= –15 - 1.35x,r=-0.81
??C、y=-25+0.85x,r=0.42 D、y=120–3.56x,r=-0.96
15、若变量x与y之间的相关系数r=0.8,则回归方程的判定系数R2为( )
A、0.8 B、0.89 C、0.64 D、0.40 16、对具有因果关系的现象进行回归分析时( )
A、只能将原因作为自变量 B、只能将结果作为自变量 C、二者均可作为自变量 D、没有必要区分自变量 二、多项选择题
1、下列现象不具有相关关系的有( )
A、人口自然增长率与农业贷款 B、存款期限与存款利率
C、降雨量与农作物产量 D、存款利率与利息收入 E、单位产品成本与劳动生产率
2、一个由500人组成的成人样本资料,表明其收入水平与受教育程度之间的相关系数r为0.6314,这说明( )
A、二者之间具有高度的正线性相关关系
B、二者之间只有63.14%的正线性相关关系
C、63.14%的高收入者具有较高的受教育程度 D、63.14%的较高受教育程度者有较高的收入 E、通常来说受教育程度较高者有较高的收入 三、判断分析题(判断正误,并简要说明理由)
1、一项研究显示,医院的大小(用病床数x反映)和病人住院天数的中位数y之间是正相关,这说明二者之间有一种必然的联系。( ) 2、应用回归方程进行预测,适宜于内插预测而不适宜于外推预测。( ) 四、简答题
1、解释相关关系的含义,说明相关关系的特点。
24
2、简述狭义的相关分析与回归分析的不同。 五、计算题
1、研究结果表明受教育时间与个人的薪金之间呈正相关关系。研究人员搜集了不同行业在职人员的有关受教育年数和年薪的数据,如下: 受教育年数 x 8 6 3 5 9 3 年薪(万元) y 3.00 2.00 0.34 1.64 4.30 0.51 受教育年数 x 7 10 13 4 4 11 年薪(万元) y 3.12 6.40 8.54 1.21 0.94 4.64 (1)做散点图,并说明变量之间的关系;
(2)估计回归方程的参数;
(3)当受教育年数为15年时,试对其年薪进行置信区间和预测区间估计(α=0.05) (t0.025,11?2.201,t0.025,10?2.2281,t0.05,11?1.7959,t0.05,10?1.8125);
2、一国的货币供应量与该国的GDP之间应保持一定的比例关系,否则就会引起通货膨胀。为研究某国家的一段时间内通货膨胀状况,研究人员搜集了该国家的货币供应量和同期GDP的历史数据,如下表: 单位:亿元
年份 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
货币供应量 2.203 2.276 2.454 2.866 2.992 3.592 4.021 4.326 4.392 4.804 5.288 5.348
该国GDP 6.053 6.659 8.270 8.981 11.342 11.931 12.763 12.834 14.717 15.577 15.689 15.715
(1)试以货币供应量为因变量y,该国家的GDP为自变量x,建立回归模型;
(2)若该国家的GDP达到16.0,那么货币供应量的置信区间和预测区间如何,取α=0.05。 答案:
一、D,A,B,A,C;A,B,C,B,C。 A,A,B,A,C;A 二、ABD,AE。
三、1、×,这种正相关是因为二者同时受到疾病的严重程度的影响所致。
25
2、√,因为用最小平方法在现有资料范围内配合的最佳方程,推到资料范围外,就不一定是最
佳方程。
四、1、答:变量之间存在的不确定的数量关系为相关关系,可能还会有其他很多较小因素影响;特点是一个变量的取值不能由另一个变量唯一确定。
2、答:变量性质不同,相关分析不必区分自变量和因变量,而回归分析必须区分;作用不同,
相关分析用于测度现象之间有无相关关系、关系方向、形态及密切程度,而回归分析是要揭示变量之间的数量变化规律。 五、1、解:(1)
98
7
6???年5 (2)建立线性回归方程y??0??1x,根据最小二乘法得: 薪43?n?xiyi??xi?yi2????22?11n?xi?(?xi)? ? 0?0246810?yx???i???i受教育年数??0?1
?nn??1214? 由此可得?1=0.732,?0=-2.01,则回归方程是y=-2.01+0.732x
(3)当受教育年数为15年时,其年薪的点估计值为:
?y=-2.01+0.732×15=8.97(万元)
估计标准误差: Sy=
(y??i?yi)2n?2?=
SSEn?21n?=MSE=0.538=0.733 (x0?x)2n 置信区间为:y?t?/2Sy
2?(xi?1i?x)(15?6.917)? =8.97±2.228×0.733× 12120.916712 =8.97±1.290
26
? 预测区间为:y?t?/2Sy1?1n?(x0?x)2n
2?(xi?1i?x)(15?6.917)? =8.97±2.228×0.733×1? 12120.916712 =8.97±2.081
??? 2、解:(1)建立线性回归方程y??0??1x,根据最小二乘法得: ?n?xiyi??xi?yi???1?22?n?xi?(?xi)? ?
??yi????xi?????01nn???? 由此可得?0=0.0093,?1=0.316,则回归方程是y=0.0093+0.316x
(3)当GDP达到16时,其货币供应量的点估计值为:
?y=0.0093+0.316×16=5.065亿元
估计标准误差: Sy=
(y??i?yi)2n?2?=
SSEn?21n?=MSE=0.09294=0.305 (x0?x)2n 置信区间为:y?t?/2Sy
2?(xi?1i?x)(16?11.711)? =5.065±2.228×0.305× 12135.2186312 =5.065±0.318亿元
? 预测区间为:y?t?/2Sy1?1n?(x0?x)2n
2?(xi?1i?x)(16?11.711)? =5.065±2.228×0.305×1? 12135.21863
27
12 =5.065±0.750亿元 课后练习题
8.1 某企业产品产量与单位成本数据如下表所示: 月份 1 2 3 4 5 6 产量(万件) 2 3 4 3 4 5 单位成本(元/件) 75 73 70 75 68 65 (1) 拟合直线趋势方程,指出,产量每增加10000件时,单位成本平均下降多少元? (2) 对回归系数进行5%的显著性检验。 (3) 假设产量为60000件,单位成本为多少? (4) 如果想要在给定单位成本的条件下预测产量,应如何进行 8.2
将某种水果200克放在一定温度的容器中,每隔30分钟观察其维生素的含量,得到如下数据: 时间x 含量y 0 1 2 7 3 6 4 6 10 8 试求回归直线方程。 8.3
某街区内的住宅房地产,已经售出的房屋销售价格与评估价值的数据如下表所示。
评估价值 (拾万元) 2 3 4 5 6 销售价格 (拾万元) 2 5 7 10 11 5所房地产的销售价格和评估价值数据 房地产 1 2 3 4 5 合计 20 35 (1) 求回归方程,并解释回归系数的实际意义; (2) 如果房屋的评估价值为30万元,预测该套房屋的销售价格;
(3) 求房屋的评估价值为30万元时,房屋销售价格为95%的置信区间和预测区间。 8.4
从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下: 企业编 号 1 2 3 4 5 6
产量(台) 40 42 50 55 65 78 生产费用(万元) 130 150 155 140 150 154 企业编 号 7 8 9 10 11 12 产量生 产 费 用 (台) (万元) 84 100 116 125 130 140 28
165 170 167 180 175 185 (1)绘制产量与生产费用的散点图,判断二者之间的关系形态。 (2)计算产量与生产费用之间的线性相关系数。 (3)对相关系数的显著性进行检验(?=0.05),说明二者之间的关系密切程度。 8.5
随机抽取的10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查,所得数据
如下: 航空公司编号 1 2 3 4 5 6 7 8 9 10
航班正点率(%) 81.8 76.6 76.6 75.7 73.8 72.2 71.2 10.8 91.4 68.5
投诉次数(次) 21 58 85 68 74 93 72 122 18 125
(1)绘制散点图,说明二者之间的关系形态。
(2)用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解释回归系数
的意义。 (3)检验回归系数的显著性(?=0.05)。
(4)如果航班正点率为80%,估计顾客的投诉次数。
(5)求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。 有10个企业生产某种产品的月产量和生产费用数据如下表: 企业编号 1 2 3 4 5 6 7 8 9 10 月产量(吨)x 120 200 310 380 500 610 720 800 900 1100 生产费用(万元)y 60 85 80 100 110 130 135 160 170 185 8.6
根据以上数据: (1)绘制散点图; (2)建立线性回归方程;
(3)对回归方程进行5%显著性检验;
(4)当月产量为1000吨时,生产费用的点估计值是多少?并给出95%的置信区间。
29