(3.8)
偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。 偏度的具体计算公式为:
(3.9)
3.1.7 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。其中,
Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。 与四分位数类似,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与这9个点位置上相对应的数值称为十分位数,分别记为D1,D2,……,D9,表示10%的数据落在D1下,20%的数据落在D2下,……,90%的数据落在D9下。
同理,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的数值称为百分位数,分别记为P1,P2,……,P99,表示1%的数据落在P1下,2%的数据落在P2下,……,99%的数据落在P99下。 通过四分位数、十分位数和百分位数,可以大体看出总体数据在哪个区间内更为集中,也就是说,它们在一定程度上可以反映数据的分布情况。
上面的峰度系数、偏度系数和四分位数、十分位数、百分位数,都是反映数据分布状况的统计量。 3.2 数据描述
描述性统计分析是对数据进行基础性的描述。通过得出的数据的平均值(Mean)、和(Sum)、标准差(Std deviation)、最大值(Max)、最小值(Min)、方差(Variance)、全距(Range)、均值标准误差(S.E. Mean)、峰度(Kurtosis)、偏度(Skewness)等统计量,来估计原始数据的集中程度、离散状况和分布情况。
数据描述功能的操作步骤如下:
01 打开【分析】(Analyze)菜单,选择【描述统计】(Descriptive Statistics)命令下的【描述】(Descriptives)命令,如图3-1所示。
这里,需要提醒的是如果数据文件尚未打开,【分析】(Analyze)菜单下的任一功能都不能使用,SPSS会弹出一个对话框,如图3-2所示,提醒用户打开文件。打开文件后,【分析】(Analyze)菜单下的统计功能才能正常使用。
图3-1 【分析】(Analyze)菜单 图3-2 未打开文件提醒对话框
02选择【描述】(Descriptives)命令后,SPSS将打开“描述性”(Descriptives)对话框,如图3-3所示。
图3-3 “描述性”主对话框 在该主对话框中,用户可以通过单击
按钮从左边原变量中选择一个或者几个
变量进入右边的“变量”(Variable(s))列表框中。
对话框底部有一个“将标准化得分另存为变量”(Save standardized values as variables)复选框,选择该项,将对“变量”(Variable(s))列表框中被选中变量的数据进行标准化,然后将标准化的结果保存到新变量中。新变量的变量名为原变量的变量名前面添加字母“z”,并被添加在数据编辑窗口中变量的最后一列。
数据标准化的计算公式为:
(3.
10)
通过标准化,可以将均值为m、标准差为s的原变量转化成均值为0、标准差为1的新变量。
“描述性”(Descriptives)主对话框的下端有5个按钮,如果还未将左边原变量中的变量添加至“变量”(Variable(s))列表框中,则【确定】(OK)和【粘贴】
(Paste)按钮为灰白显示,不可单击,但【重置】(Reset)、【取消】(Cancel)和【帮助】(Help)按钮可以单击。通过单击【重置】(Reset)按钮,用户可以将已进入右框的变量全部转移至左框的变量列表中,重新进行选择。
03单击【选项】(Options)按钮,将打开“描述:选项”(Descriptives:Options)对话框,如图3-4所示。
在该对话框中,用户可以选择所要统计的统计量和图表输出方式。具体对话框中各选项的意义如下:
(1)在对话框中最上面一行是均值(Mean)和合计(Sum)。 (2)离散(Dispersion)栏中的统计量包括:
标准差(Std Deviation) 最小值(Minimum) 方差(Variance) 最大值(Maximum)
范围(极差)(Range) 均值的标准误(S.E. Mean)
(3)分布(Distribution)栏中的统计量包括:
峰度(Kurtosis) 偏度(Skewness)
(4)显示顺序(Display Order)栏中,用户可以自行选择输出变量的排序方式,包括:
l 变量列表(Variable List):在结果输出窗口中,用户选择输出的
变量将按照变量在数据编辑窗口中原来的排列顺序进行排列。 l 字母顺序(Alphabetic):在结果输出窗口中,用户选择输出的变
量将按照变量名的字母排列顺序进行排列。
l 按均值的升序排序(Ascending Means):SPSS将计算每个输出变量
的平均值,并按照平均值从小到大对输出变量的顺序进行排列。 l 按均值的降序排序(Descending Means):SPSS将计算每个输出变
量的平均值,并按照平均值从大到小对输出变量的顺序进行排列。