统计学 下载本文

第1章 统计学导论 统计学有什么用处

社会经济指标 市场营销 天气预报 网站流量分析 企业管理 军事领域 1.1 什么是统计学

统计学:收集、处理、分析、解释数据并从数据中得出结论的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。

1.数据搜集:例如,调查与试验 2.数据整理:例如,排序、分组 3.数据展示:例如,图和表 4.数据分析:例如,回归分析 统计学的分科:描述统计 推断统计 理论统计 应用统计 1.2 统计数据的类型

按计量尺度划分:分类尺度→分类数据 顺序尺度→顺序数据 间隔尺度→数值型数据 比率尺度→数值型数据 数据类型与统计方法:分类数据→品质数据 顺序数据→品质数据 数值型数据→数量数据 指出下面分别是哪种数据类型

1职工工资2居民对住房问题是否满意:非常不满意、不满意、一般、满意、非常满意 3商品广告、服务广告、金融广告、 房地产广告、招生招聘广告、其他广告 4汽车产量 5员工对企业某项改革措施的态度:赞成、中立、反对 统计数据类型

按计量尺度:分类数据 顺序数据 数值型数据 按收集方法:观测数据 实验数据 按时间状态:截面数据 时序数据

总体 ← 样本 μ 平均 X ↑ ↑ σ 标准 S 参数 统计 π 比 P

变量:说明现象某种特征的概念,从一次观察到下一次观察,结果会呈现出变化。 变量的具体取值称为变量值。

分类变量 顺序变量 数值型变量:离散型变量 连续型变量 一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。要求:

(1)这一研究的总体是什么? (2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量? (3)研究者所关心的参数是什么? (4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量? (5)研究者所使用的主要是描述统计方法还是推断统计方法? 第2章 数据的搜集 2.1 数据的来源

数据的直接来源:一手资料 调查→调查数据 实验→实验数据 调查的方式:普查、抽样调查、统计报表……

数据的间接来源:二手资料 统计公报 统计年鉴 网上资料 期刊 杂志报纸…… 2.2 抽样调查

概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。

特点:1.以随机原则抽取样本 2.每个单位被抽中的概率是已知的 3.用样本估计总体时,要考虑入样概率 概率抽样 ≠ 等概率抽样

(1)简单随机抽样 :从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作

为样本,每个单位入样的概率是相等的。①抽签法 ②随机数表法

先将总体中的所有个体(共有N个)编号,然后在随机数表内任选一个数作为开始,再从选定的起始数,沿任意方向取数(不在号码范围内的数、重复出现的数必须去掉),最后根据所得号码抽取总体中相应的个体,得到总体的一个样本. (2)分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层抽样法适用于总体中个体差异明显的抽样。分层抽样是按各层中含个体在总体中所占的比例,确定层抽样的个体个数进行随机抽样。

例:一个工厂有若干个车间,今采用分层抽样方法从全厂某天2048件产品中抽取一个容量为128的样本进行质量检查.若一车间一天生产256件产品,则从该车间抽取产品件数为 。 (3)整群抽样:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

(4)系统抽样:将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。

例:为了了解参加某种知识竞赛的1000名学生的成绩,从中抽取50名学生的成绩,若选择系统抽样的方法进行抽样,简述抽样过程?

例:为了了解参加某种知识竞赛的1003名学生的成绩,请用系统抽样抽取一个容量为50的样本,简述抽样过程?

5)多阶段抽样:先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。多阶段抽样以此类推。 非概率抽样 方便抽样 依据方便原则,自行确定入抽样本 判断抽样 根据经验、判断、对研究对象的了解,有目的地抽样 自愿样本 自愿参加

滚雪球抽样 针对特定稀少群体的研究 配额抽样 先分类,在每类中用方便抽样或判断抽样选取样本

非概率抽样 概率抽样 ●不依据随机原则 ★随机原则 ●样本无法对总体估计,不计算估★样本可以对总体进行估计,计算

计误差、置信区间…… 估计误差、置信区间…… ●操作简便 ★技术含量高 ●时效快 ★成本较高 ●成本低 ★适合用于验证问题作进一步的数

●前期发现问题 量分析 搜集数据的方

法:自填式 面访式 电话式 2.3 数据的误差

抽样误差:由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中 非抽样误差:除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。 存在于任何抽样或调查 第3章 数据的整理与 图表展示

3.1 数据的预处理 3.2 品质数据的整理与展示 3.3 数值型数据的整理与展示 3.1 数据的预处理

1. 数据审核:发现数据中的错误 2. 数据筛选:找出符合条件的数据

3. 数据排序:发现数据的基本特征;升序和降序 数据筛选

例3.1表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出

(1)统计学成绩等于80分的学生(2)数学成绩最高的前三名学生,英语成绩最低的三名学生(3)统计学成绩在80-90之间的学生(4)四门课程成绩都大于70分的学生 数据排序

1. 分类数据的排序

字母型数据,排序有升序降序之分,但习惯上用升序

汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分

数值型数据的排序

3.2 品质数据的整理与展示 3.2.1 分类数据的整理与图示

1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形展示 分类数据中需要计算的指标

1.频 数:落在各类别中的数据个数

频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。 2.比 例:某一类别数据占全部数据的比值 3.百分比:将对比的基数作为100而计算的比值 4.比 率:不同类别数值的比值

例3.3一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。数据见Excel表。要求:对数据进行整理,求不同品牌饮料的频数分布、比例和百分比。 如何利用Excel计算频数

插入→函数→COUNTIF 数一数 COUNT IF要计算某一类别的频数

【例3.4】为研究广告市场的状况,一家广告公司在某城市随机抽取100人就广告问题做了邮寄问卷调查,其中的一个问题是―您比较关心下列哪一类广告?‖

1.商品广告 2.服务广告 3.金融广告 4.房地产广告 5.招生招聘广告;6.其他广告。 要求:计算各类广告的频数、比例、百分比画出频数分布表、柱形图、饼图。 分类数据的图示

1.条形图:是用宽度相同的条形的高度或长短来表示数据多少的图形。各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。对比条形图显示分类变量在不同时间或不同空间上的差异或变化

2.饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的

3.环形图中间有一个―空洞‖,总体中的每一部分数据用环中的一段表示。

(1)环形图与圆形图类似,但又有区别:圆形图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。 (2)环形图可用于进行比较研究; 环形图可用于展示分类数据和顺序数据 3.2.2 顺序数据的整理与图示

累积频数:将各有序类别的频数逐级累加起来得到的频数。

向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数; 向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。

2.累积频率:将各类别的百分比逐级累加

例3.5在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:―您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意; 3.一般; 4.满意; 5.非常满意。 甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0 向上累积 户数 (户) 24 132 225 270 300 — 百分比 (%) 8.0 44.0 75.0 90.0 100.0 — 向下累积 户数 (户) 300 276 168 75 30 — 百分比 (%) 100.0 92 56 25 10 — 非常不满意 不满意 一般 满意 非常满意 合计 乙城市家庭对住房状况评价的频数分布 乙城市 回答类别 户数 (户) 21 99 78 64 38 300 百分比 (%) 7.0 33.0 26.0 21.3 12.7 100.0 向上累积 户数 (户) 21 120 198 262 300 — 百分比 (%) 7.0 40.0 66.0 87.3 100.0 — 向下累积 户数 (户) 300 279 180 102 38 — 百分比 (%) 100.0 93.0 60.0 34.0 12.7 — 非常不满意 不满意 一般 满意 非常满意 合计

3.3 数值型数据的整理与显示 3.3.1 数据的分组

分组方法:单变量值分组 组距分组(等距分组 异距分组) 单变量值分组:适合于离散变量 适合于变量值较少的情况 步骤:排序→一个变量 值作为一组

例3.6某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。

117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114

120 128 124 115 139 128 124 121

107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139 某车间50名工人日加工零件数分组表 零件数 (个) 107 108 110 112 113 114 115 117 118 频数 (人) 1 2 1 2 1 1 1 3 3 零件数 (个) 119 120 121 122 123 124 125 126 127 频数 (人) 1 2 1 4 4 3 2 2 3 零件数 (个) 128 129 130 131 133 134 135 137 139 频数 (人) 2 1 1 1 2 2 1 1 2 组距分组:适合于连续变量;适合于变量值较多的情况;将变量值的一个区间作为一组;可采用等距分组,也可采用不等距分组

1.下限:一个组的最小值 2.上限:一个组的最大值 3.组距:上限与下限之差 4. 组中值:下限与上限之间的中点值

下限值+上限值

组中值=

2

步骤:第1步:排序,确定组数(K)5≤K≤15能够显示数据的分布特征和规律 第2步:确定组距 组距=(最大值-最小值)÷组数 组距宜取5或10的倍数

第一组的下限应低于最小值,最后一组的上限应高于最大值。遵循“不重不漏”的原则,上组限不在内

第3步:根据分组整理成频数分布表

等距分组表(上下组限间断) 表3-6 某车间50名工人日加工零件数分组表 按零件数分组 频数(人) 频率(%)

105~109 110~114 115~119 120~124 125~129 130~134 135~139 合计 3 5 8 14 10 6 4 50 6 10 16 28 20 12 8 100 等距分组表(上下组限重叠)

表3-5 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 频率(%) 6 10 16 28 20 12 8 100 等距分组表(使用开口组)

表3-7 某车间50名工人日加工零件数分组表 按零件数分组 110以下 110~115 115~120 120~125 125~130 130~135 135以上 合计 频数(人) 3 5 8 14 10 6 4 50 频率(%) 6 10 16 28 20 12 8 100 用Excel制作数值型数据的频数分布表

【工具】 ——【数据分析】 ——【直方图】 【输入区域】:输入原始数据区域 【接收区域】:输入各组的上限值 【输出区域】:选择一个空白单元格(想要把输出的结果放在那里) 【柏拉图】、【累积百分率】(不需要时,可不选)选择【图表输出】 利用FREQUENCY函数,制作频数分布表

FREQUENCY(Data_array,Bins_array) Data_array为计算频数的数据区域或数组 Bins_array为数据接收区间的数组,即指定的各分组的组上限值。

注意:1.FREQUENCY函数返回的是一个数组;2.在输入函数前,应选定返回数组的区域; 3.函数录入以后,应按住Ctrl+Shift+回车(确定)

分组数据—直方图

1. 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布

2. 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram) 直方图与条形图的区别

1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。 2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。

3直方图的各矩形通常是连续排列,条形图则是分开排列。 分组数据—折线图

1.折线图也称频数多边形图(Frequency polygon)

2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉

3.折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的 未分组数据 —— 茎叶图

1.用于显示未分组的原始数据的分布

2.由“茎”和“叶”两部分构成,其图形是由数字组成的 3.以该组数据的高位数值作树茎,低位数字作树叶

4. 茎叶图类似于横置的直方图,但又有区别:直方图可大体上看出一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 未分组数据—箱线图

1.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

2. 其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU);连接两个四分位数画出箱子,再将两个极值点与箱子相连接 时间序列数据—线图

绘制线图时应注意以下几点 1.时间一般绘在横轴,指标数据绘在纵轴 2.图形的长宽比例要适当,其长宽比例大致为10:7 3.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断 多变量数据的图示

1.散点图:用二维坐标展示两个变量之间关系的图形。每组数据(xi,yi)在坐标系中用一个点表示。

2. 气泡图:可用于展示三个变量之间的关系,一个变量放在x轴,另一个变量放在y轴,第三个变量用气泡的大小表示。

3. 雷达图:可显示多个变量之间的关系,也称为蜘蛛图。 雷达图的制作

设有n组样本S1,S2,?Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是

先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P

个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示

再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图

第4章 数据的概括性度量 数据分布特征的测度

集中趋势的度量,反映数据向其中心值靠拢或聚集的程度 离散程度的度量,反映数据远离其中心值的趋势 分布的形状,反映数据分布的偏态和峰态 4.1 集中趋势的度量

一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值

分类数据:众数 顺序数据:中位数和分位数 数值型数据:平均数 众数(MODE):一组数据中出现次数最多的变量值,用Mo表示;主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据;众数是位置代表值,不受极端值影响;可能没有众数、有一个众数或几个众数 众数的不唯一性

无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5

多于一个众数 原始数据: 25 28 28 36 42 42 分类数据的众数

例4.1 】某城市居民关注广告类型的众数 某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 人数(人) 比例 47 22 9 9 8 5 0.47 0.22 0.09 0.09 0.08 0.05 频率(%) 47 22 9 9 8 5 100 1 100 合计 解:这里的变量为―广告类型‖,不同类型的广告就是变量值。关注商品广告的人数最多,为47人,占总被调查人数的47%,因此众数为―商品广告‖这一类别,即 Mo=商品广告 顺序数据的众数

【例4.2 】求甲城市家庭对住房状况评价的众数 甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 非常不满意 不满意 一般 满意 非常满意 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10 300 100.0 合计 解:这里的数据为顺序数据。变量为―回答类别‖。甲城市中对住房表示不满意的户数最多,为108户,因此众数为―不满意‖这一类别,即Mo=不满意 数值型数据的众数(未分组) 【例4.3 】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。

1080 750 1080 1080 850 960 2000 1250 1630 解:人均月收入出现次数最多的是1080,因此,Mo = 1080元 数值型分组数据的众数

1. 众数的值与相邻两组频数的分布有关

2. 相邻两组的频数相等时,众数组的组中值即为众数 3. 相邻两组的频数不相等时,众数采用下列近似公式计算

L为众数组的下限值,i为众数组的组距,f为众数组的频数,f-1为众数组前一组的频数,f+1为众数

组后一组的频数。

【例4.4】根据第三章表3-6中的数据,计算50名工人日加工零件数的众数 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 M0f?f?1??i?L?(f?f?1)?(f? f?1)— 顺序数据:中位数和分位数 中位数

排序后处于中间位置上的变量值;不受极端值的影响;

主要用于顺序数据,也可用数值型数据,但不能用于分类数据 计算中位数的步骤

1. 排序2. 确定中位数的位置(按公式)

N为数据的个数

顺序数据的中位数(算例)

14?8解:顺序数据本身就是排序的,根据中位数位置的确定公式: M0??120?(14?8)?(14?10)N?1中位数位置?2?5?123(个)从累积频数看,中位数在―一般‖这一类中,即Me = 一般

甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 累计频数 24 108 93 45 30 24 132 225 270 300 ?2?150.5300 — 合计 数值型未分组数据的中位数 数个数据的算例

原始数据: 24 22 21 26 20 排序: 20 21 22 24 26 位置: 1 2 3 4 5

中位数 = 22

偶数个数据的算例 原始数据: 10 5 9 12 6 8 排序: 5 6 8 9 10 12 位置: 1 2 3 4 5 6

数值型分组数据的中位数

1. 计算累积频数2. 确定中位数所在组3. 采用下列近似公式计算:

位置?N?15?1??322L为中位数所在组的下限值,N为数据的个数,Sm-1为中位数所

在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距

【例4.5】根据第三章表3-5中的数据,计算50 名工人日加工零件数的中位数

位置?? 某车间50名工人日加工零件数分组表按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 N+16+1?3.52N2频数(人) 累积频数 ?Sm?1fm?i5 8 14 10 6 4 50 3 8 16 30 40 46 50 — Me??2?L3 8 + 9?8.5中位数?2

四分位数

排序后处于25%和75%位置上的值;不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据 四分位数的计算

1. 排序2. 确定四分位数的位置;下四分位数为QL,上四分位数为QU,公式为: QL位置 = QU位置 =

例4.6由一组10个学生的月支出的调查数据,要求计算该组数据的四分位数。 1500 750 780 1080 850 960 2000 1250 1630 2500 数值型分组数据的四分位数 50?16n【例4.7】计算50 名工人日加工零件数的四分位数 2Me??5?123.21(个)?120?某车间50名工人日加工零件数分组表14 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 n43 8 16 30 40 46 50 — 数值型数据:平均数(均值) 1. 平均数是一组数据相加后除以数据个数得到的结果。2. 集中趋势的最主要测度值 3. 易受极端值的影响4. 用于数值型数据,不能用于分类数据和顺序数据。 简单平均数

对未分组数据计算的平均数公式为:

加权平均数 NXi对分组数据计算的平均数,设原始数据被分成k?组,各组的组中值为M1,M2,?,Mk,各

X1?X2???XNi?1X,则加权平均数为,?组频数为f1,f2, ?,fk ?NN

简单平均数 算例

【例4.8】计算第三章中50个工人日加工零件数的均值

X= (117+122+??121)/50 = 6149/50 = 122.98(个)

例4.9根据第三章表3-5中的数据,计算50 名工人日加工零件数的均值 某车间50名工人日加工零件均值计算表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 组中值(Mi) 频数(Fi) 3 5 8 14 10 6 4 MiFi — 50 合计 某车间50名工人日加工零件均值计算表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 — 频数(Fi) 3 5 8 14 10 6 4 50 XiFi 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0 (个)

简单平均数,其数值的大小只与变量值的大小有关; 加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。 几何平均数

1. 几何平均数: N 个变量值乘积的 N 次方根,用GM表示GEOMEAN,其计算公式为

2. 主要用于计算平均比率和平均发展速度

k【例4.10】一位投资者持有一种股票,2001-2004年的收益率分别为4.5%,2.1%,25.5%,

Mifi1.9%要求计算该投资者在这4年内的平均收益率。 6160x??i?1k??fi50?123.20i?1 解:设平均收益率为G

= 108.0787%

则G = GM –1 = 108.0787%-1 = 8.0787%

【例4.11】某水泥生产企业2001年的水泥产量为100万吨,2002年的产量比2001增长了9%,2003年比2002年增长了16%,2004年比2003增长20%。求该企业2002年、2003年、2004年这三年的平均增长率。 解:

= 114.91%

则年平均增长率为114.91%-100% = 14.91% 众数、中位数和平均数的比较 众数、中位数和平均数的关系

1. 如果数据分布是对称的,则Mo = Me = x 2. 如果数据是左偏分布,则x < Me < Mo

n3. 如果数据是右偏分布,则 M12Mo < Me < x N4.2 离散程度的测度

离散程度:反映个体远离其中心值的程度。离散程度越大,表示集中趋势的测度值对数据的代表性越差;离散程度越小,表示集中趋势的测度值对数据的代表性越好。 分类数据:异众比率

n1.离散程度的测度值之一计算公式为GM?2.非众数组的频数占总频数的比率x1?x2?…?xN?3.109%? 116%?120%G?x?x?…?x?104.5%?102.1%?125.5%?101.9%VrF?F???Fiim?1?Fm 4. 用于衡量众数的代表性

?Fi解:Vr = (200 – 112)/200=1-112/200= 0.44 = 44%

在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好

异众比率(算例)

-某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100 顺序数据:四分位差

1.离散程度的测度值之一2. 也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU – QL 4.反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性

计算甲城市家庭对住房满意状况评价的四分位差 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 合计 24 108 93 45 30 300 24 132 225 270 300 — 解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 QL = 不满意 = 2, QU = 一般 = 3 四分位差:

QD = QU – QL = 3 – 2 = 1

数值型数据的离散程度 极差

1.一组数据的最大值与最小值之差,用R表示 2.计算公式:未分组数据 R = max(Xi) - min(Xi) 组距分组数据 R =最高组上限—最低组下限 3.离散程度的最简单测度值 4.易受极端值影响 5.未考虑数据的分布 平均差(Md)

1.各变量值与其平均数离差绝对值的平均数

2.以平均数为中心,反映每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。

3.平均差越大,离散程度越大;平均差越小,离散程度越小。

【例4.13】根据第三章表3-5中的数据,计算工人日加工零件数的平均差 表4-5 某车间50名工人日加工零件标准差计算表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 组中值(Mi) 频数(fi) 3 5 8 14 10 6 4 50 频数(Fi) 3 5 8 14 10 6 4 50 | Mi- X | |Mi-X |Fi — 组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 — — | Xi- X | 15.7 10.7 5.7 0.7 4.3 9.3 14.3 — |Xi-X |Fi 47.1 53.5 45.6 9.8 43.0 55.8 57.2 312 表4-5 某车间50名工人日加工零件标准差计算表 方差和标准差

方差:各变量值与其均值离差平方的平均数。标准差:方差的平方根

1. 反映了各变量值与均值的平均差异2. 反映出数据的离散程度3. 最常用的离散程度测度

值4. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差

总体方差和标准差方差的计算公式未分组数据标准差的计算公式未分组数据N?2???i?1Nxi?N??2?22???i?1xi?N??2分组数据分组数据??2???Mi?1ki??fiN?2???Mi?1ki???2fiN样本方差和标准差方差的计算公式方差的计算公式未分组数据2__n????xi?x??s2?i?1?n?1分组数据M???i?1k标准差的计算公式标准差的计算公式未分组数据注意:注意:样本方差用自样本方差用自由度n-1去除由度n-1-1去除!!s2????i?1n?xi?x??__?2n?1分组数据?i?s2?x??__?2fis2?n?1M???i?1k?i?x??__?2fin?1自由度(degree of freedom)

1. 一组数据中可以自由取值的数据的个数 2. 当样本数据的个数为 n 时,若样本均值?x 确定后,则附加给n个观测值1个约束条件,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。

【例】一位投资者有一笔现金可用于投资,现有两个投资项目可供选择。项目A和B有如下资料可供参考。试比较哪个投资项目较佳?

项目A 回报率x(%) 5.5 6.5 7.5 8.5 合计 回报率x(%) 4 5 6 7 8 9 10 合计 可能性(p) 0.25 0.25 0.25 0.25 1 项目B

可能性p 0.05 0.1 0.15 0.4 0.15 0.1 0.05 1 预期回报率 0.2 0.5 0.9 2.8 1.2 0.9 0.5 7 预期回报率 1.375 1.625 1.875 2.125 7 解:比较哪个投资项目较好,要看哪个项目的预期回报率高、风险小。项目A的预期平均回报率为E(x)=项目B的预期平均回报率为项目A的标准差为项目B的标准差为??n?xpii?1nii?1ni= 7iE(x)=i?xp= 7?[xi?1?E(X)]2pi?1.12???[xi?1ni?E(X)]2pi?1.414期望值或平均数衡量平均回报率或收益率

方差或标准差反映每一个可能出现的回报率与平均回报率的平均差异。 方差或标准差越大,回报率的变化越大,风险越高;方差或标准差越小,回报率的变化越小,风险越低;当投资回报率相等时,风险较小的项目为最佳选择当投资回报率不相等时,通过离散系数来衡量风险。 标准分数

1. 含义:变量值与其平均数的离差除以标准差后的值,也称标准化值或z分数。 2. 计算公式为

Zi?Xi???或Zi?xi?xSn?13. 给出某一个值在一组数据中的相对位置4. 可

用于判断一组数据是否有离群点5. 用于对变量的标准化处理

例】一家公司在招聘时,要对应聘者进行两项能力测试。在A项测试中,平均分数为100分,标准差是15分;在B项测试中,平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分,与平均分数相比,该应试者哪一项测试更为理想?

经验法则:当一组数据对称分布时,约有68%的数据在平均数±1个标准差的范围之内;约有95%的数据在平均数±2个标准差的范围之内;约有99%的数据在平均数±3个标准差的范围之内;在3个标准差范围之外的数据称为离群点 切比雪夫不等式

适用于任何分布形状的数据 根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内,k是大于1的任意值。 至少有75%的数据在平均数±2个标准差的范围之内;至少有89%的数据在平均数±3个标准差的范围之内;至少有94%的数据在平均数±4个标准差的范围之内 离散系数(变异系数)

离散系数:标准差与其相应的平均数之比 计算公式为:V????或Vs?S x 测度数据离散程度的相对统计量;用于比较不同样本数据离散程度

例】某管理局抽查了所属的8家企业,其产品销售数据如下,试比较产品销售额与销售利润的离散程度

表4-7 某管理局所属8家企业的产品销售数据 企业编号 产品销售额(万元)X1 销售利润(万元)X2 1 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0 X1=536.25(万元) S1=309.19(万元) V1=309.19/536.25=0.577 X2=32.5215(万元) S2=23.09(万元) V2=23.09/32.5215=0.71.

结论: 计算结果表明,V1

偏态:数据分布偏斜程度的测度 偏态系数(SK)—— 测度偏态的统计量 未分组

分组偏态系数= 0为对称分布 偏态系数> 0为右偏分布 偏态系数< 0为左偏分布 峰态

峰态:对数据分布平峰或尖峰程度的测度。峰态系数(K)—— 测度峰态的统计量

K=0时,为正态分布 K>0时,为尖峰分布 K<0时,为扁平分布 数据的特征和测度:

集中趋势——众数、中位数、均值; 离散程度——异众比率、四分位差、方差和标准差、离散系数 分布的形状——偏态、峰度

名称众数(分组)公式f?f?1M0??i?L?(f?f?1)?(f?f?1)N?1中位数位置?2MeN?Sm?12??i?L?fmN?SL4??iLfL3N?SU4??iUfU中位数nQL位置=4四分位数QL?LL3nQU位置=4QU?LU简单平均数X?X1?X2???XNN??i?1kNXiN加权平均数X?M1f1?M2f2?…?Mkfk?f1?f2?…?fk?Mfi?1kii?i?1fi几何平均数异众比率四分位差GM?NX1?X2???XN?N?i?1NXiVr??Fi?FiFm??1?Fm?FiQD= QU-QL总体方差??2??x???ii?1N2N?2???Mi?1k2i???fiN总体标准差????x???ii?1N2Nn2????M???ii?1k2fiNk2样本方差__??xi???x?i?1??2s?n?1__??Mi????fix?s2?i?1?n?1样本标准差s?__??xi???x?i?1??n?1n2s?__??Mi????fixi?1??n?1k2标准分数Zi?Xi?X??Xk或Zi?Sx3xi?xSn?1离散系数分组数据的偏态系数分组数据的峰态系数V??或Vs?SK???M?x?ii?1fins3k4K???Mi?x?i?1fi?3 ns4第六章 统计量及其抽样分布 6.1 统计量

1. 统计量的形成:抽样→样本→构造函数 2. 统计量是样本X1,X2??Xn的一个函数 3. 统计量不依赖任何未知参数

4. 将一组样本的具体观测值代入统计量函数,可以计算出一个具体的统计量值。 6.2 样本均值的抽样分布 和中心极限定理

1.从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的

概率分布,称为这个统计量的抽样分布。 2.

设X1,X2,…,Xn是取自总体X的样本,样本均值

,所有可能样本的均值 构成

的概率分布即为样本均值的抽样分布。

【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下

???Xi?1NiN?2.5 ?2??(Xi?1N2??)iN?1.25

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样n1本的结果如下表 X?Xin?i?1所有可能的n= 2 的样本(共16个) 第一个 计算出各样本的均值,如下表。并给出样本均值的抽样分布 观察值123416个样本的均值(x)第一个观察值1第二个观察值1232.02.53.042.53.0n3.5.3.2.1P ( x )1第二个观察值231,32,33,34,341,42,43,44,41,12,13,14,11,22,23,24,2 所有样本均值的均值和方差 1.01.52.01.52.02.51.0?1.2.55???4.03.03.524.0?x???2.5?? ?x?i?1M16Mi?14i?xn23i?(x??)x2220(1.0?2.5)???(4.0?2.5)???0.625?16n21.01.52.02.53.0样本均值的抽样

式中:M为样本均值的个数

样本均值的分布 :当总体服从正态分布N ~(μ,σ2)时,来自该总体的所有容量为n的样本的均值?X也服从正态分布,?X 的数学期望为μ ,方差为σ2/n。即?X~N(μ,σ2/n) 中心极限定理:设从均值为?,方差为?2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。 当样本容量足够大时(n≥30),样本均值的抽样分布逐渐趋于正态分布 标准误差:样本统计量与总体参数之间的平均差异

1. 所有可能的样本均值的标准差,测度所有样本均值的离散程度

2. 样本均值的标准误差小于总体标准差3. 计算公式为???

xn【例】设从一个均值μ=8、标准差σ=0.7的总体中随机抽取容量为n=49的样本。要求: (1)计算样本均值小于7.9的近似概率(2)计算样本均值超过7.9的近似概率 (3)计算样本均值在总体均值μ=8附近0.1范围的近似概率

【例】某公司有400人,平均工龄为10年,标准差为3年。随机抽出49名组成一个简单随机样本,试问样本中工作人员的平均年龄不低于9年的概率有多大。

解:虽然该总体的分布未知,但样本容量n=49较大,由中心极限定理可知,样本均值的抽

样分布近似服从正态分布。则均值的期望

均值的标准差

=1-Φ(-2.33)= Φ(2.33)=0.9901

6.3 由正态分布导出的几个重要分布 卡方 (c2) 分布

定义:设随机变量X1,X2,?Xn相互独立,且Xi服从标准正态分布N(0,1),则它们的平方和服从自由度为n的c2分布。

当自由度n足够大时, c2分布的概率密度曲线趋于对称;当n→+∞时, c2分布的极限分布是正态分布。 __X?109?10?P(X?9)?1?P(X?9)?1?P(?????0.43(年))C2分布的数学期望为:E( c2)= n C2分布的方差为:D?( c2)= 2n 0.430.43Xn49t分布和T统计量

1. t分布:设随机变量X~N(,Y~ c2(n),且X与Y独立,则t=x/y/n ?0,1)其分布称为t分布,记为t(n),其中n为自由度。当n≥2时, t分布的E (t)=0

当n≥3时, t分布的D (t)=n/(n-2) 2. T统计量

设X1,X2,?,Xn是来自正态总体N~ (μ,σ2 )的一个样本,

X~N(10,0.43)(X??)T?~t(n?1) 称为T统计 则

S/n量,它服从自由度为(n-1)的t分布。 F分布

定义:设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n的c2分布,随机

变量X有如下表达式:

由度为n的F分布,记为X~F(m,n)

则称X服从第一自由度为m,第二自

6.4 样本比例的抽样分布

如果在样本大小为n的样本中具有某一特征的个体数为X,则样本比例用p来表示:P=x/n 当n充分大时,p近似服从均值为 ,方差为

的正态分布。

【例】已知对某超市服务水平不满意的人数的比例为5%,现随机抽取475名顾客组成的简单随机样本,问这475名顾客中不满意的比例在0.03~0.075之间的概率有多大? 解:设475名顾客中不满意的比例为p,则E(p)=0.05, D(p)=0.05×0.95/475=0.0001 p~N(0.05,0.0001)

6.5

两个样本平均值之差的分布

例】居民区甲有2000个家庭,平均居住时间为130个月,服从正态分布,标准差为30个月;居民区乙有3000个家庭,平均居住时间为120个月,也服从正态分布,标准差为35个月。从两个居民区中独立地各自抽取一个简单随机样本,样本容量为70和100。问居民区甲样本中的平均居住时间超过居民区乙样本中的居民平均居住时间的概率是多大。 两个样本比例之差的分布

设分别从具有参数为π1和π2的两个总体中抽取包含n1个观测值和n2个观测值的独立样

本,当n1和n2很大时,(p1-p2)的抽样分布近似服从正态分布:

【例】某厂甲、乙两个车间生产同一种产品,根据经验其产品的不合格率分别为3.5%和4%。从甲车间随机独立地抽取200个产品,从乙车间随机独立地抽取150个产品。问两个样本中产品不合格率相差不超过1%的概率。 练习题

某类产品的抗拉强度服从正态分布,平均值为99.8公斤/平方厘米,标准差为5.48公斤/平方厘米,从这个总体抽出一个容量为12的样本,问这一样本的平均值介于98.8公斤/平方厘米和100.9公斤/平方厘米之间的概率有多大。 第7章 参数估计

统计方法:描述统计、推断统计(参数估计、假设检验) 7.1 参数估计

1. 用样本统计量去估计总体参数。2. 估计量:用来估计总体参数的统计量 估计值:一个具体样本计算出的统计量的数值 参数估计的方法:点估计、区间估计 点估计

含义:从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。

1. 点估计的可靠性用标准误差来衡量。2. 点估计无法衡量估计值接近总体未知参数程度 区间估计

含义:在点估计的基础上,给出总体参数估计取值的一个区间范围。 1. 置信区间 :由样本统计量对总体参数进行估计时的估计区间。(在某种程度上确信置信区间中包含总体参数的真值) 2. 置信水平(置信度、置信系数):包含总体参数真值的置信区间占所有置信区间的比例。常用1-α表示置信水平。

a. 总体参数的真值是未知的、固定的,构造出的置信区间可能包含真值,也可能不包含真值;

b. 设置信水平为95%,则说明有95%的置信区间包含总体真值,有5%的置信区间不包含总体真值。 练习题

1. 一个95%的置信区间是指( )

A 总体参数有95%的概率落在这一区间内 B 总体参数有5%的概率落在这一区间内 C 在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数 D 在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数 2. 根据一个具体的样本求出的总体均值的95%的置信区间( ) A 以95%的概率包含总体均值 B 有5%的可能性包含总体均值

C 一定包含总体均值 D 要么包含总体均值,要么不包含总体均值 常用置信水平的临界值(Zα/2值) 置信水平 90% 95% 99% α 0.10 0.05 0.01 α/2 0.05 0.025 0.005 Zα/2 1.645 1.96 2.58 评价估计量的标准

1. 无偏性 E(θ)=θ

2. 有效性:对同一总体参数的两个无偏估计量,标准差越小的估计量估计效果越好,称估计量越有效。

3. 一致性:随着样本量的增大,点估计量的值越来越接近被估总体的参数。 7.2 一个总体参数的区间估计 7.2.1 总体均值的区间估计

总体均值的置信区间=样本均值±边际误差

总体是否为正态分布;总体方差是否已知;样本是大样本还是小样本

1.正态总体,方差已知2.分布未知,方差未知,大样本3.正态总体,方差未知,小样本

1. 正态总体,方差已知样本均值 X~N(μ,σ2/n)总体

?x??z?N均值μ在1-α的置信水平下的置信区间为

?/n【例】某厂成批生产某种金属棒,其长度服从正态分布,标准差为0.06厘米,对一个由25

根棒组成的随机样本进行了测量,平均长度为7.48厘米,求这批金属棒平均长度μ的置信度为95%的置信区间。

解:总体服从正态分布,方差已知,置信度为95%,则z0.025=1.96,

在置信度为95%水平下,金属棒的平均长度在7.456~7.504厘米之间。 2. 方差未知,大样本(n≥30)总体均值μ在1-α的置信水平下的置信区间为

【例】一家保险公司收集到由36位投保人组成的随机样本,他们的平均年龄为40岁,标准差为5岁,求这家保险公司的所有投保人的平均年龄在90%的置信水平下的置信区间。 解:总体的分布未知,总体方差也未知,但所抽样本容量36为大样本,因此,求总体均值

?? 0.06的置信区间可用样本标准差代替总体标准差

x?Z??x?Z?n?7.48?1.96?25?7.48?0.024?7.4sn置信区间为:则投保人平均年龄在

90%的置信度下的置信区间为38.63岁-41.37岁。

3. 正态总体、方差未知、小样本用样本方差s2代替总体方差σ2样本均值经标准化处理后服从自由度为(n-1)的t分布为

x?Z???n?7.48?1.96?0.06总体均值μ在1-α的置信水平下的置信区间

25?7.48?0.024?7.5【例】某时装店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行了调查,

得到样本均值为32岁,样本标准差为8岁,假定顾客的年龄近似服从正态分布,求该店全部顾客平均年龄在置信度为95%的置信区间。

解:因为总体近似服从正态分布,方差未知,所抽样本为小样本,则总体均值的置信区间为

因此,有95%的把握估计全部顾客平均年龄在27.738至36.262之间。

不同情况下总体均值的区间估计

7.2.2

总体比例的区间估计

当样本为大样本时,样本比例p近似服从正态分布,

当总体比例π已知时,总体比例π在1-α置信水平下的置信区间

为:

【例】某所大学想要了解应届毕业生在大四找到工作的学生中女生所占的比例,随机抽取了100名找到工作的应届毕业生,其中42人为女生。试以95%的置信水平估计该校找到工作的应届毕业生中女同学的比例的置信区间。 解:已知n=100,zα/2 =1.96, p=42/100=0.42

中女性比例在95%置信度下的置信区间为0.37-0.47 7.3 两个总体参数的区间估计

该城市下岗职工

7.3.1 两个总体均值之差的估计总体1??11??11??22??22总体2抽取简单随机样样本容量n1计算X1计算每一对样本的X1-X2抽取简单随机样样本容量n2计算X2所有可能样本的X1-X2抽样分布抽样分布?????????? 1.假定条件

两个样本是独立的随机样本;两个总体都服从正态分布;若不是正态分布, 可以用正态分布来近似(n1?30和n2?30) 2.两个独立样本均值之差的抽样分布服从正态分布,其期望值为E(x1?x2)??1??2

其标准误差为?(x?x2)?3. 使用正态分布统计量

?12n1Z??2?2n2

(X1?X2)?(?1??2)?12n1?2?2~N(0,1)

n24. 当两个总体方差 和 已知时,两个总体均值之差?1-?2在1-? 置信水平下的置信区间为(x1?x2)?Z??122n1?2?2n2

【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为?A2=2500和?B2=3600的正态分布。试求?A- ?B的区间估计 (1)置信度为95% (2)置信度为99% 解:已知 XA~N(? A,2500) XB ~N(?B,3600)? xA=4500,? xB=3250, A2 =2500 B2 =3600 nA= nB =25 (1) ?A- ?B置信度为95%的置信区间为

(4500?3250)?1.9625003600?2525

?1219.78,1280.62?(2) ?A- ?B置信度为99%的置信区间为

(4500?3250)?2.5825003600?2525

?1209.7,1290.3?5. 当两个总体方差?1和?2未知时,可用两个样本方差s1和s2来代替,这时,两个总体均值之差?1-?2在1-? 置信水平下的置信区间为(x1?x2)?Z?2s12s2? n1n2222227.3.2 两个总体比例之差的区间估计 1. 假定条件

两个总体是独立的;两个总体服从二项分布;可以用正态分布来近似 2. 两个总体比例之差π1-π2在1-?置信水平下的置信区间为?p1?p2??Z?2p1(1?p1)p2(1?p2) ?n1n2【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分

别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。 解:已知 p1=0.18, p2=0.14,1-?=0.95, n1= n2=1000 π1-π2置信度为95%的置信区

(p1?p2)?z?/2间为

p1(1?p1)p(1?p2)?2n1n20.18(1?0.18)0.14(1?0.14)?10001000

??0.18?0.14??1.96???0.0079,0.0721我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79% ~ 7.21%之间 7.4 样本量的确定

样本量、置信水平、置信区间三者的关系 样本量 不变 不变 扩大 扩大 置信水平 提高 降低 不变 提高 置信区间 扩大 缩小 缩小 不变 估计总体均值时样本量的确定 总体均值的置信区间为样本量

边际误差

【例】某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要以95%的置信水平去估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本? 估计总体比例时样本量的确定

总体比例在1-α置信水平下的置信区间为:

边际误差

样本量第8章 假设检验

假设检验的基本知识 假设检验:先对总体的参数提出某种假设,然后利用样本信息判断假设是否成立的统计方法。 假设检验的步骤:1. 提出原假设和备择假设2. 确定适当的检验统计量3. 规定显著性水平? 4. 计算检验统计量的值5. 作出统计决策 1. 提出原假设和备择假设

原假设(H0):需要通过样本去推断其正确与否的命题 H0: U=U0 U>=U0 U=< U0 备择假设(H1):与原假设相对立的假设。 和备择假设是互斥的 假设 H0 H1 研究的问题 双侧检验 m = m0 m ≠m0 左侧检验 m ? m0 m < m0 右侧检验 m ? m0 m > m0 【例】1989年某地新生儿的平均体重为3190克,现从1990年的新生儿中随机抽取100个,测得其平均体重为3210克,问1990年的新生儿与1989年相比,体重有无显著差异。 H0:μ= 3190(克) 90年新生儿的体重与89年无显著差异 H1:μ≠3190(克) 90年新生儿的体重与89年有显著差异

【例】某品牌的洗涤剂在其产品说明书中声称:每瓶的―平均净含量不低于500克‖。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述原假设和备择假设。

H0:μ≥500 (净含量符合说明书) H1:μ<500 (净含量不符合说明书)

【例】某种大量生产的袋装食品,按规定重量不得少于250克。今从一批该种食品中随机抽取50袋,发现有6袋重量低于250克。若规定不符合标准的比例达到5%,食品就不得出厂,

则该批食品能否出厂?

H0:μ≤ 5%(次品率没有超过上限,可以出厂) H1:μ> 5%(次品率超过上限,不可以出厂) 2. 检验统计量的确定

样本量:Z统计量(大) 总体标准差σ(小)→Z统计量(已知) t统计量(未知) 3. 规定显著性水平 假设检验中的两类错误 α错误(弃真错误):原假设为真却被拒绝。 β错误(取伪错误):原假设为伪却被接受。

显著性水平:当原假设正确而人们却把它拒绝了的概率或风险。用α表示,常用的α值有0.01, 0.05 H0 检验 决策 不能拒绝H0 拒绝H0 实际情况 H0为真 1-a (正确决策) (弃真错误) H0为假 b (取伪错误) 1-b (正确决策) 小概率原理:发生概率很小的随机事件在一次试验中是几乎不会发生的。

假设检验的基本思想:在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。 4. 计算检验统计量的值

标准化检验统计量=估计量-假设值点估计量的抽样标准差

5. 作出统计决策

根据给定的显著性水平α和统计量的分布,查表得出相应的临界值。将检验统计量的值与临界值进行比较,得出接受或拒绝原假设的结论

双侧检验的算例

【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为?0=0.081mm,总体标准差为0.025 。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(?=0.05) 解:

H0: μ= 0.081mm 没有明显差异 H1: μ? 0.081mm 有显著差异

已知μ0 = 0.081mm,σ=0.025mm, n = 200,因为是大样本,故选择Z统计量 α=0.05,z0.025=1.96

所以拒绝H0,可以认为新机床加工的零件的椭圆度与老机床有显著差异

一项对200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。据统计,去年每天每个家庭看电视的平均时间为7小时。取显著性水平α=0.01,试证明今年每个家庭每天看电视的平均时间与去年相比是否有显著差异? 左侧检验的算例 【例】某批发商欲从厂家购进一批打印墨盒,根据合同规定用这批墨盒打印的纸张数目平均不能低于1000张。已知其墨盒的打印纸张数量服从正态分布,标准差为200张。在总体中随机抽取了100件墨盒,试验发现平均打印的纸张数量为960张,当显著性水平α=0.05时,批发商是否应该购买这批墨盒?

解:H0: μ≥1000张 应购买墨盒 H1: μ<1000张 拒绝购买墨盒

已知μ0 = 1000(张),σ=200(张),n = 100,因为是大样本,故选择Z统计量,α=0.05,本题为左侧检验,因此zα= 1.645

所以应拒绝H0,检验表明这批墨盒的使用寿命低于1000张,批发商不应购买这批墨盒。

右侧检验

【例】电视机显像管批量生产的质量标准为平均使用寿命1200小时,标准差为300小时。某电视机厂宣称其生产的显像管质量大大超过规定标准。为了进行验证,随机抽取了100件为样本,测得平均使用寿命为1245小时。能否说该厂的显像管质量显著高于规定标准?(α=0.05)

解:H0:μ≤1200 质量没有显著超过标准 H1:μ>1200 质量显著超过标准 本题为右侧检验,α=0.05,Zα =1.645 已知n=100,σ=300,故采用Z统计量验证。

因为Z

一家汽车生产企业在广告中宣称“该公司的汽车可以保证在2年或24000公里内无事故”,但该汽车的一个经销商认为保证“2年”这一项是不必要的,因为汽车车主在2年内行驶的平均里程超过24000公里。为验证经销商的这一想法,随机抽取49位车主,了解其2年内的行驶里程,平均里程为25517公里,标准差为1866公里,取显著性水平为0.01,问经销商的想法是否可信。 小样本,σ未知

【例】某机器制造出的肥皂厚度为5cm,根据经验可知,该机器制造出的肥皂厚度服从正态分布。今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。 解:H0: μ= 5cm H1: μ? 5cm

μ0 = 5cm,σ未知,n=10,是小样本,因此,应选择t统计量。此题为双侧检验,α=0.05,t0.025(9)=2.262

所以拒绝H0,可以认为该机器的性能不好 航空服务公司规定,销售一张机票的平均时间为2分钟。由10名顾客购买机票所用的时间组成的一个随机样本,结果为:1.9, 1.7, 2.8, 2.4, 2.6, 2.5, 2.8, 3.2, 1.6, 2.5在α=0.05的显著性水平下,检验平均售票时间是否超过2分钟?(t0.05(9)=1.83) 总体比例的检验

采用Z统计量 p为样本比例,为总体比例的假设值

【例】某种大量生产的袋装食品,按规定重量不得少于250克。今从一批该种食品中随机抽取50袋,发现有6袋重量低于250克。若规定不符合标准的比例超过5%,食品就不得出厂,则该批食品能否出厂? 解:H0:

≤ 5% H1:

> 5%

本题为右侧检验,α=0.05,Zα =1.645 已知n=50, = 5% ,p=6/50 =0.12

因为Z>Zα,Z值落在拒绝域中,所以拒绝原假设,

即不能说该批食品不能出厂。

对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取由250人组成的一个随机样本,其中60人早餐饮用牛奶。在α=0.05显著性水平下,检验该生产商的说法是否属实? 利用P值进行决策

P值(P-value):如果原假设为真,所得到的样本结果或更极端结果出现的概率,也称为观察到的显著性水平。 P值表示当原假设正确时,从总体中抽出目前这个样本的概率。 如果概率很小,而这个概率很小的样本却被抽中了,说明小概率事件发生了,则拒绝原假设。 P<α,拒绝原假设 P>α,不能拒绝原假设 利用置信区间进行假设检验

由临界值围成的区域就是以μ0为中心的置信区间,检验假设μ=μ0是否成立, 就是看的统计量是否落在这个区间内。 利用置信区间进行假设检验

1. 求出双侧检验均值的置信区间 ?2已知时:?x?z????2n,x?z?2??ss??? ??2未知时:?x?t?2n?1,x?t?2n?1? n?nn??2. 若总体的假设值?0在置信区间外,拒绝H0