普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。 (2)抽样调查
抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。
5.普查 P12
普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。
6.概率抽样 P13
概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。
7.众数 P68
1、众数
众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。
8.中位数 P73
2、中位数
中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,
要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。
9.均值 P78
4、均值
均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总
5
个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。
10.方差与标准差 P95
6、方差
方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。 7、标准差
标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。
11.离散系数 P100
8、离散系数
离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程
度的相对指标,通常用Vs适用于数值型数据离散程度的测量。
12.正态分布 P103 1、正态分布
连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、
体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。
13.参数与统计量 P127,P128 4、参数与统计量
6
参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主
要有总体平均数(μ)、标准差(σ)、比例(π)等。
统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X)、样本
标准差(S)、样本比例(P)等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。
14.抽样分布 P129 5、抽样分布
抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分
布等。
15. 中心极限定理 P130 1、中心极限定理
中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为μ、方差为σ
2
的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
16.区间估计 P134
区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能
?????1性大小。也就是要在给定值的前提下,去寻找两个统计量和2,使其满足????上述不等式。从而知道?落在区间(?1,?2)内的概率为1??,故也称(?1,?2)为?的区间估计。
17.置信水平 P135
置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。
18. 假设检验 P140
假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌
灯泡的寿命X服从正态分布(μ,125),厂方说它的平均工作寿命是1800小时。随机测试16次,得到的平均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检
7
验要解决的问题。
19. 虚无假设与替换假设 P140 P141
将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用H0表示。如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用H1表示。
上面例子中,虚无假设为:
H0:μ=1800替换假设为:H1:μ≠1800a
20.二维表 P152 二维表
二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位
职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:
对某项政策态度的调查结果
初中及以下 高中 专科 本科及以上 合计 男 24 35 34 54 147 女 32 40 21 22 115 合计 56 75 55 76 262
21.误差减少比例 P158 1、误差减少比例
在预测变量Y的值时,知道变量X的值时所减少的误差(E1-E2)与总误差E1的比值称为误差减少比例(proportional reduction of error),简称PRE。取值范围为0~1,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大。
E1?E2公式为:PRE=E1
例如,PRE=0.7,说明以变量X预测变量Y时能减少70%的误差,说明二者之间关系较强。
8