第一讲SPSS数据预处理操作. 下载本文

SPSS数据文件的建立

如上一章所述,建立SPSS数据文件有两种方法:一是在SPSS中直接输入,二是从其他数据文件转入。重点介绍第一种方法,它类似于在FOXPRO建立数据库。首先,在SPSS Variable View窗口中建立数据文件结构,如定义变量类型、宽度、标签等;然后在SPSS Data View窗口输入数据,并保存为“.sav”格式的SPSS数据文件。通常情况下,调查问卷的数据文件建立与录入都是采用第一种方法。在问卷数据录入前,还必须对问卷选项进行编码。 2.1 问卷设计及数据编码 2.1.1 问卷

一份调查问卷的结果通常表现为文字型和数字型两大类,其中文字型包括二项选择问题、多项选择问题、排序问题、开放式问题、连线问题等调查结果,而数字型包括百分比、绝对数等。对于数字型,可直接录入数据;而文字型则需要进行事前或事后编码,且不同类型的调查结果有不同的编码表现。此外,无论是数字型还是文字型,都有可能碰到调查数据缺省或不应该有的情况。这同样需要事先编码。

下面将以为了解大学生购书情况进行调查而获得的一份问卷为例,介绍几种常见问卷数据编码。

2.1.2 数据编码

1、单项选择题的编码

由于单项选择题的答案是唯一的,所以对各答案依次编码为1、2、3….。如问卷中的第1题有四个答案,可依次编码“1”代表答案“300元以下”,“2” 代表答案“300—500元”,“3” 代表答案“500—700元”,“4” 代表答案“700元以上”。于是,被访问者选择的任何答案都可以用1,或2,或3,或4来表示。

2、多项选择题的编码

问卷中的第5题是多项选择题,共有6个答案项。编码时,可将6个答案看作6个变量,用“1”表示选择了该项答案,用“0”表示没有选择该项答案。若第5题答案顺序是从左到右、一行一行的排列,则012号问卷结果的编码是“0 0 1 1 1 0”。此外,该题的第6个答案项没有唯一的表现,应该视为开放性问题的编码(详细解释见后面)。

3、排序题的编码

对于排序题的编码,其处理方法是:将每个序位当作一个变量,而需要排序的那些选项作为每个变量的取值。如问卷中第3题有六个选项要排序,将“购书时考虑的第一因素”作为第一个变量,记为“Q301”;其取值可为“内容”、“价格”、“包装”“实用性”、“知名作家的作品”、“热门畅销书”中的任何一个,可分别编码为“1”、“2”、“3”、“4”、“5”、“6”。同理,可将“购书时考虑的第二因素”、“购书时考虑的第三因素”等依次作为第二、第三变量等,记为“Q302”、“Q303”等;而每个变量的取值都与Q301相同,同样也编码为1、2、3、4、5、6。于是,012问卷第3题排序结果可转化为6个变量的取值依次为:2,4,1,5,6,3。

4、开放式问题的编码

对于开放式问题,如第5题的“其他”选项,第7、8、9题,有的答案是数字型,可直接录入,但有的答案则需要归类编码。其中第5题的“其他”选项和第7题的第一个空,由于事先不知道有多少类答案,需事后抽查部分调查问卷结果统计后才能初步确定与编码。这就是“事后编码”,它类似于二项选择问题的编码。至于第9题的“性别”、“专业”、“年级”等问题的所有可能答案,在事先都容易确定,可以直接编码录入数据。这就是“事前编码”,如“性别”有两个选项——男或女,可用“1”表示“男”,“0”表示“女”,也类似于二项选择问题的编码。

5

问卷编号:012 1.您的月收入大概有多少? ■300元以下 □300—500元 □500—700元 □700元以上 2.您购书的主要目的是: ■ 学习、考试需要 □ 了解时尚、热点 □ 休闲娱乐 □ 个人爱好及收藏 3.您购书时主要考虑的因素依次是: (请在选项前横线上标出序号) 3 内 容 1 价 格 6 包 装 2 实用性 4 知名作家的作品 5 热门畅销书 4.您较能接受的书的价格为: ■ 20元以下 □ 20—50元 □ 50元以上 □ 需要,则无所谓 5.您购书的地点一般是:(可多选) □ 新华书店 □ 校内书店 ■ 学校附近书摊 ■ 菜园坝书刊市场 ■ 商家在校园内的图书展销 □ 其他 跳蚤市场 6.您对商家来校园内进行图书展销的看法是: □ 既方便又实惠,很好 ■ 无所谓,视其内容、价格而定 □ 没兴趣,宁愿到正规书店购买 7.您最近一次购书的时间是 两个月前 ;花费为 5.60 元; 8.您平均每个月的购书支出占月收入的比例为 2% ; 9.您的性别 女 ,专业 经济学 ,年级 大二 ,电话 62650029 。 5、缺失值的编码

问卷中,若遇到被调查者不回答的一些选项,则应该当作缺失值。缺失值又称为用户缺失值(User Missing Value)。如第8题“您平均每个月的购书支出占月收入的比例”有缺失值,可编码为99%。又如,第7题“花费”有缺失值,可编码为9999.99。如果可以选择的项目有9项,但被调查者正好选择了第9个选项,则以“0”表示缺失值。当然,缺失值也可用研究者自己能够识别的其他数字来表示,如“0”或“9”为用户缺失值。

用户缺失值与系统缺失值(System Missing)的含义不同。系统缺失值主要是指计算机默认的缺失方式,如果在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标记为“·”,而用户界定的缺失值则不会在数据显示时出现“·”。

6、“不适用情况”的编码

当碰到被调查者不适用的选项时,被调查者不需要对这些题进行回答,这种情况下,研究者可以用“8”、“98” 等值来赋值表示“不适用”。若答案正好是8,可以以0替补。 2.2 在SPSS数据窗口直接输入数据

进入SPSS系统时,系统就已经生成了一个空数据文件,即空白的数据管理界面(见图1.2)。在输入

6

数据之前,必须先在Variable View窗口下定义变量。通常的做法是:把问卷中的问题定义成变量,把答案项编码定义成取值,并定义变量的类型、数据项宽度、标签、缺失值(或叫缺省值)等。然后,在Data View窗口下输入数据,并存盘为“*.sav”文件就行了。 2.2.1 定义变量

在Variable View窗口下,从列顶端可看到1 0 种功能选项,分别是:Name,Type,Width,Decimals,Label,Values,Missing,Columns,Align和Measure等变量属性。见图2.1。

●Name,即变量名。SPSS变量命名原则如下: 1) SPSS变量的变量名由不多于8个字符组成;

2) 首字符是字母,其后可为字母或数字,或除“?”,“!”和“*”以外的字符。但应该注意不能以下划线“_”和圆点“·”作为变量名的最后一个字符;

3) 变量名不能与SPSS保留字相同。SPSS的保留字有all,and,by,eq,ge,gt,le,lt,ne,not,or,to,with,crosstabls,thru等。

4)SPSS中虽不区别大小写字符,但程序中的命令和关键词要用大写字母,表示系统内定;变量名等宜用小写字母,表示可人为指定。

5)可以用中文做变量名,但最好不用,因为涉及一个兼容性问题。

图2.1 定义变量

●Type:变量类型。

有8种变量类型可供选择,包括Numeric(数值型变量),Comma(带逗号的数值型变量),Dot(带圆点的数值型变量),Scientific notation(科学计数法),Date(日期型变量),Dollar(货币型变量),Custom currency(自定义型变量),String(字符型变量)等。其中,常用的有三种Numeric,String和Date;系统默认的变量类型为标准数值型变量(Numeric)。实践中,应尽量采用数值型变量,以方便以后的统计分析。

Width:变量的长度。系统默认长度为8。

Decimals:小数位数。若为数值型变量,必须指定小数位数。系统默认小数位数为2。

Label:变量标签,是对变量的进一步说明。变量较多时,需采用变量标签对变量的含义加以解释,

7

以免混淆。在数据统计分析过程中,会在变量名相对应的位置上显示该变量的标签,有利于分析结果得出结论。

Values:标签变量值。标签是对变量的可能的取值所附加的进一步说明。无论是问卷结果显示是数字型还是文字型,只要答案是分类的(也称分类变量),如问卷中第9题“性别”,编码后都要定义其取值的标签。具体操作:单击行中Values格,再单击格中的按钮,即可定义值标签,如图2.2。

图2.2 值标签的定义

Missing:缺失值的定义。可指定缺失值。 Columns:列宽度。

Align:对齐方式,分为左对齐、右对齐、中间对齐。

Measure:变量的度量类型。Scale为定量变量,Ordinal为等级变量,Nominal为定性变量。 以问卷中第1题为例,可定义变量名称Name为“Q1”,数值型变量Numeric,宽度Width默认为8,小数位数Decimals为0,变量标签Label为“被调查者的月收入”,标签值Values为“1=300元以下”,“2=300—500元”,“3=500—700元”,“4=700元以上”,其他则均选择系统默认。此外,定义问卷中的变量时,必须定义问卷编号变量,便于差错和统计分析。也就是,录入问卷调查结果之前,应先录入问卷编号,如上节问卷编号为“12”。

如果有许多个变量的类型相同,可以先定义一个变量,然后把该变量的定义信息复制给新变量。具体操作为:先定义一个变量,在该变量的行号上单击右钮,弹出如图2.3(A)所示的快捷菜单,选择Copy;然后用鼠标右钮选择多行,弹出如图2.3(B)所示的快捷菜单,选择Paste;再把自动产生的新变量名称(如Var0001、Var0002、Var0003、??)改为所要的变量名称。 2.2.2 数据的直接输入

定义好了变量就可以开始输入数据。如果样本不大,变量不多,可以直接在SPSS中Data View窗口输入数据。输入方法就如同在Excel中输入一样,每一个变量占一列,每一行代表一个被观测个体的记录或一份问卷(Case),数据就录在行列交叉处。

和其他常用统计软件相比,SPSS数据界面最大的优势就是支持鼠标的拖放操作,以及拷贝粘贴等命令,下面的数据输入技巧就是对这些功能的利用。

1、连续多个相同值的输入

如前面group变量有连续多个1,如果直接输入,可以在第一格内输入1并回车,然后回到刚才的单元格并单击右键,选择copy,最后用拖放方式选中所有应输入1的单元格,单击右键并选择paste,所有选中的单元格就会都被刚才拷贝的1填充。

8