一.统计研究的基本环节:1统计设计。根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。2.收集数据。统计数据的收集有两种基本方法。采用实验法,进行调查观察。3.整理与分析。运用的方法包括:描述统计和推断统计。描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要内容。4.统计资料的积累、开发与应用。统计资料需要加以积累,进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 二.统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是人们认识客观世界的一种有力工具。统计工作(又称统计实践)是搜集、整理、分析和提供关于社会经济现象的数字资料工作的总称.。统计数据是统计实践活动的成果。统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践。统计工作与统计数据的关系是工作过程与工作成果的关系
三统计的研究对象是总体,数量方面。具有以下特点:数量性。统计数据是客观事物量的反映。总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析,得出反映现象总体的数量特征。变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。
四.统计总体是根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。统计总体还应具备大量性。统计总体应该由足够数量的同质性单位构成。客观性;差异性。
五.总体单位(简称单位)是组成总体的各个个体。
总体和单位是相对而言的,在一定条件下可以相互转化。根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。
六.标志:总体各单位普遍具有的属性或特征称为标志。 标志分为品质标志和数量标志两种。品质标志表明单位属性方面的特征,品质标志的表现只能用文字、语言来描述如工人的性别。数量标志表明单位数量方面的特征,可以用数值来表现,如年龄。
如果一个总体中各单位有关标志的具体表现都相同,称之为不变标志。如果一个总体中,当一个标志在各单位的具体表现有可能不同时,称之为变异标志。
七.指标是反映统计总体数量特征的概念和数值。统计指标由两项基本要素构成,即指标的概念(名称)和指标的取值。
统计指标可以分为数量指标和质量指标。
反映现象总规模、总水平的统计指标称为数量指标。用绝对数来表示。
反映现象相对水平和工作质量的统计指标称为质量指标,相对数或平均数来表示。 八.简述统计指标与统计标志的区别与联系
区别:1.标志的说明总体单位属性的,一般不具有综合的特征;指标是说明总体综合数量特 征的,具有综合的性质。2.统计指标都可以用数量来表示;标志中,数量标志可以用数量来表示,品质标志只能用文字表示3定义不同
联系:1.统计指标的指标值是由各单位的标志值汇总或计算得来的2.随着研究目的的不同,指标与标志之间可以相互转化。
九.变量值分类
1是否连续出现。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。
离散型变量是指变量的其取值是整数值,可以一一列举。
2取值是否确定。确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。 十.统计调查的方案设计1. 确定调查目的 调查目的是确定调查内容,选择具体调查调查方 式的前提。2. 确定调查对象和调查单位 调查对象:需要调查的现象总体,该总体是性质 相同的许多调查单位组成。 调查单位:所要调查的具体单位,它是进行调登记的标志的承担者。报告单位亦称填报单位他是负责向上报告调查内容,提交统计资料的单位 调查单位与报告单位不一定一致。调查单位可以是个人,企事业单位,也可以实物而报告单位不可以是物。3. 确定调查项目和调查表 调查项目:所要调查的具体内容,即调查单位的特征(基本标志),由一系列的品质标志和数量标志组成。调查表:将各个调查项目按照一定的顺序排列一定的表格上,就构成了调查表。调查表分为:1)一览表 许多调查单位填写在一张表上。,调查项目较少时使用。2)单一表。每个调查单位填写一份,可容纳较多标志,用于调查项目较多的场合,表格详细。4. 确定调查时间和调查期限 调查时间:调查资料所属的时间,又称客观时间。 调查期限:进行调查工作的时限,包括搜集资料和报送资料的工作所需的时间,又称主观时间。 5. 确定调查的组织实施计划 十.统计调查的具体形式 1按调查范围分类:
1)全面调查:对调查对象的所有单位一一进行调查。
普查 专门组织的一种全面调查,非经常性。定期统计报表 自上而下地统一布置,自下而上地定期上报和汇总 经常性调查。
2)非全面调查:对调查对象其中的一部分单位进行调查。
抽样调查是一种非全面调查,是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算或检验调查对象总体的数量特征。
抽样调查特点:第一,样本单位按随机原则抽取。第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计或检验。第三,抽样误差可以事先计算并加以控制。 抽样调查原则 第一,随机原则 第二,最大抽样效果原则
重点调查 重点调查是指在调查对象中,选择一部分重点单位进行的非全面调查。重点单位的选择主要着眼于调查单位在所研究现象的标志总量中所占的比重。
典型调查 典型调查是一种专门组织的非全面调查。在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究。
2按时间标志分类:1)连续性(经常性)调查:指随着研究现象的变化,连续不断地进行调查登记。 2)不连续性(一次性)调查:指间隔一段较长的时间对事物的变化进行一次性调查。
3按组织形式分为:定期报表和专门调查
十一.统计分组 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的部分。 统计分组的原则: 穷尽原则互斥原则 统计分组的种类 1按分组标志的多少:分为简单分组和复合分组。2按分组的标志的性质不同:分为品质分组和数量分组3按分组的作用和任务不同:分为类型分组、结构分组和分析分组
十二. 在组距式分组中,每组的变量值中最小值为下限。最大值为上限 组距:在组距式分组中,组距是上下限之间的距离。相邻两组的界限成为组限。组限不相连的称为间断组距式分组。组限相连的称为连续组距式分组。
1) 连续式分组的组距计算公式:组距=本组上限–本组下限 间断式分组的组距计算公式:
组距=本组上限–本组下限+1 2) 组中值计算
开口组 上限(XX以下):XX—临组组距/2 下限(XX以上):XX+临组组距/2 闭口组 组中值=(上限+下限)/2
十三。向上累计频数表明某组上限以下的各组单位数之和是多少; 向下累计频数表明某组下限以上的各组单位数之和是多少 十四。统计表的结构 1. 从表式上看,统计表是由总标题,横行标题,纵栏标题和指标数值组成。 2. 从内容上看,统计表由主词栏和宾词栏两个部分组成。
频(次)数分布图的类型:钟型分布,U型分布 J型分布 十五.统计数据分布特征的统计描述
1集中趋势的指标主要有:平均数,众数,中位数
平均数是根据统计数列中的全部数据计算得到的代表值。 简单算术平均数适用于未分组的资料。加权算术平均数适用于原始资料已经分组,并得出次数分布的场合
注意:众数是指统计总体或分布数列中出现频数最多,频率最高的标志值。中位数是将总体各个单位按其标志值的大小顺序排列处于数列位次中点的单位的标志值。
三者之间存在着一定的数量关系,A.在对称的正态分布条件下: 算术平均数等于众数等于中位数。 B.在非对称正态分布的情况下: 众数、中位数和平均数三者的差别取决于偏斜的程度。右偏(正偏)时 x e ? M 左偏(负偏)时 M ? M ? x 三者关系的经验公式? Mooe为:x-M0=3(x-me)
2离散程度的指标有:极差,四分位差,方差,标准差。变异系数。
极差也称全距,它是统计总体中两个极端标志值之差,表明总体中标志值变动的范围
四分位差:从变量数列中剔除最大和最小各1/4的单位,用3/4位次与1/4位次的标志值之差除以2
Q.D?Q3?Q12.,Q1表示分布数列中最小的四分之一的单位,Q3表示分布数列中最大的
四分之一的单位。
数量标志方差与标准差的计算公式为:未分组资料:方差: 标准差 : 分组资料:方差 标准差
变量的方差等于变量平方的平均数减去变量平均数的平方。
变异系数:变异系数也称离散系数,是各变异指标与其算术平均数的比值。 其中标准差系数(最常用):标准差与其平均数的比值。
3分布的偏度和峰度 1统计动差:也称为距,反映分布偏斜或离散程度的指标。
偏度:衡量频数分配不对称程度或偏斜程度的指标。 峰度:用以衡量频数分配的集中程度,即分布曲线的尖峭程度的指标。
十六.总体参数。总体的数量特征就是总体的参数,它是抽样统计推断的对象。他是一个确定的量。统计量是随机变量
十七.抽样平均误差,通常记为 ,重复抽样是: 不重复抽样时: 十八.点估计优良性包括三条标准:无偏性、有效性和一致性。 无偏性要求用来估计总体参数的样本统计量,其分布是以总体参数真值为中心的,在一次具体的抽样估计中,估计量或者大于总体参数,或者小于总体参数;但是,在进行重复抽样估
计的过程中,所有估计量的平均数应该等于待估的总体参数。这说明,无偏估计要求估计量没有系统偏差。
样本平均数的方差比样本中某个单位的标志值的方差要小,所以作为估计量,样本平均数更加有效。
3.一致性。一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小,接近于0
十九.进行区间估计的3大条件:点估计值。概率保证程度,抽样极限误差
二十.影响样本容量的因素:1总体变异性2抽样推断精确度3概率保证程度4抽样方法5抽样组织形式
3.某地区粮食播种面积5000亩,按不重复抽样方法随机抽取了100亩进行实测,调查结果,平均亩产450公斤,亩产量标准差为52公斤。试以95%的置信度估计该地区粮食平均
亩产量和总产量的置信区间。解:已知X=450公斤,n=100(大样本),n/N=1/50,1?n?1N,
不考虑抽样方式的影响,用重复抽样计算。s=52公斤,1-α=95%,α=5%。这时查标准正态分布表,可得临界值:
z?/2?z0.025?1.96 该地区粮食平均亩产量的置信区间是:
x?z?s2n?450?1.96?52100=[439.808,460.192] (公斤)
总产量的置信区间是:[439.808?5000,460.192?5000] (公斤)=[2199040,2300960](公
斤)
4.已知某种电子管使用寿命服从正态分布。从一批电子管中随机抽取16只,检测结果,样本平均寿命为1490小时,标准差为24.77小时。试以95%的置信度估计这批电子管的平均寿命的置信区间。解:(1)已知X=1490小时,n=16,s=24.77小时,1-α=95%,α=5%。这时查t分布表,可得
t?/2(n?1)?2.13145该批电子管的平均寿命的置信区间是:
x?t?s2n?1490?2.13145?24.7716=[ 1476.801,1503.199](小时)
因此,这批电子管的平均寿命的置信区间在1476.801小时与1503.199小时之间。
5如果已知居民每天观看该电视台节目时间的总体方差为1小时。试求:1)该地区内居民每天观看该电视台节目的平均时间的置信区间(置信度是95%);2)如果要求估计的误差不超过27分钟,这时置信度是多少?解:(1)已知X=4小时,n=100,?=1.5小时,1-α=95%,α=5%。这时查标准正态分布表,可得临界值:
z?/2?z0.025?1.96
由于样本容量在地区居民总人数中所占的比重太小,重复与不重复抽样效果相差不大,我们按重复抽样计算。该地区内居民每天看电视平均时间的置信区间是:
x?z?s2n?4?1.96?1.5100=[3.71,4.29] (小时)即该地区居民每天看电视时间在3.71