《SPSS实验》教案
引言
统计分析软件是数据分析的主要工具;完整的数据分析过程包括:数据的收集、数据的整理、数据的分析
统计分析软件的一般特点:
功能全面,系统地集成了多种成熟的统计分析方法; 有完善的数据定义、操作和管理功能; 方便地生成各种统计图形和统计表格; 使用方式简单,有完备的联机帮助功能;
软件开放性好,能方便地和其他软件进行数据交换 常用软件:SAS、SPSS、S-Plus、Stata、E-Views 使用的基本方法:
弄清分析的目的;弄清统计概念和统计含义,知道统计方法的适用范围;处理和分析的数据;选择一种或几种统计分析方法探索性地分析数据;读懂计算机分析的数据结果,发现规律,得出分析
《SPSS实验》授课内容
第1章 SPSS概述
第2章 数据文件的建立与编辑 第3章 数据整理 第4章 统计图形 第5章 统计分析
第6章 相关分析和回归分析
学习重点:第2-5章 / 学习难点:第6章
参考书:
张文彤.SPSS统计分析基础教程.北京:高等教育出版社,2004
第1章 SPSS概述
1.1 SPSS软件简介
软件名称:Statistical Package for Social Science 一、软件的发展
60年代:美国斯坦福大学三位研究生研制; 70年代:推出SPSS中小型机版SPSSX 80年代:微机版(V1~3 )SPSS/PC+ 90年代-: Windows版(v5~13) 二、SPSS的功能及系统组成
1
1、SPSS的功能
两大功能:数据管理功能、统计分析功能 数据管理功能:把原始数据甚至数据结构十分复杂的数据文件转化成系统内的数据文件,以提供统计分析命令使用;根据统计分析的需要做多种数据变换;对系统内数据文件做各种各样的操作
统计功能:对数据进行一般的统计描述;做各种类型的方差分析;做相关分析与回归分析;非参数统计;多元统计分析和实用统计分析等 2.SPSS系统的基本组成
统计分析命令:这类命令能做许多统计分析
数据管理命令:把外部数据文件转化成SPSS系统内的数据文件 辅助运行命令:这类命令从多方面控制运行和输出 3.SPSS的特点
①大部分操作可通过“菜单”、“图形按钮”、“对话框”来完成,操作简便,便于学习和使用
②只需粗通统计分析原理和算法
③其他软件生成的数据及文本文件可被转换和接收 ④提供多种统计分析方法,图表生成及编辑功能 ⑤运行方式有完全菜单、程序和混合方式
1.2 窗口及功能
SPSS窗口:数据编辑器窗口、输出窗口和语句窗口 一、数据编辑器窗口(data editor)
功能:对SPSS数据进行定义、录入、修改、管理等 组成:主菜单、工具栏、数据编辑区、状态显示区 特点:SPSS运行过程中自动打开,且只能打开一个窗口;运行过程中无法关闭;SPSS中各统计分析功能都是针对该窗口中的数据进行的,窗口中的数据以.sav存于磁盘上 二、输出窗口(viewer)
功能:SPSS统计分析报表及图形的输出窗口
组成:主菜单、工具栏、结果显示区、状态显示区
特点:在进行第一次分析时自动打开,也可手工打开;可以手工打开若干个可相互切换的viewer窗口;输出窗口可以关闭;状态栏上的!表示当前输出窗口;窗口内容以.spo存于磁盘上 三、语句窗口
编辑SPSS命令,提供程序运行方式,基本方法是: 运行(RUN)→全部(ALL) 注意:对话框中的Paste(粘贴)按钮可提供菜单操作所对应的命令;程序运行方式可以简化操作工作
1.3 SPSS一般步骤
1.建立SPSS数据文件 ?定义数据文件结构
?录入修改和编辑待分析的数据
2.分析数据 分析数据 ?统计分析之前的数据预处理
2
?统计分析和建模
3.结果的说明和解释 4.数据和分析结果的保存
1.4 SPSS帮助系统
SPSS提供了无处不在的帮助功能,能支持不同层次的用户,包括主题、教程(学习向导)、观测量研究、统计教练(Statistic Coach)、语法手册(Command Syntax Reference)和对话框帮助6大类
其中对话框帮助出现在众多对话框中,说明该对话框的使用方法
SPSS帮助系统提供了丰富的学习素材,但使用SPSS帮助系统需要一定的英文基础
1、按要求完成表“各地区工业企业主要经济效益指标”的以下数据分析操作:
表:各地区工业企业主要经济效益指标 地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 湖南 湖北 河南 广东 广西 海南 重庆 四川 贵州 云南 陕西 甘肃
工业增加总资产资产负流动资产全员劳动利润率 产品销售率 值率 贡献率 债率 周转次数 生产率 22.42 12.23 59.97 23.75 11.17 50.53 28.80 8.19 62.90 34.55 30.52 4.75 8.23 68.80 43.41 2.01 1.89 1.67 1.48 0.88 1.91 2.65 1.OO 1.68 2.05 2.OO 1.73 1.98 1.60 2.04 1.24 1.85 l.72 2.03 1.50 1.28 1.52 l.50 0.80 1.30 l.29 1.11 3
5.63 8.15 5.50 O.50 7.25 5.02 132887 97342 50801 72910 62099 82779 97.94 99.0l 98.07 94.50 100.88 96.70 96.52 92.41 99.16 97.66 97.01 98.97 96.79 98.03 97.36 96.43 98.00 98.67 97.28 96.34 91.59 96.64 97.13 98.56 96.88 96.99 99.86 26.70 8.32 50.32 29.46 25.29 52.29 31.94 6.55 70.18 26.23 10.43 48.39 25.07 10.06 57.53 23.80 11.25 55.09 3l.65 9.27 56.43 26.92 27.53 7.24 9.27 54.60 58.14 13.75 161233 3.40 75143 7.09 12231O 5.23 6.68 5.64 3.93 4.09 6.23 8.29 6.50 7.11 4.99 6.73 3.10 5.63 6.66 -2.36 88883 56016 81460 55816 52256 63755 80287 103638 73090 64161 6337l 59593 10649l 86379 35622 29.63 11.23 57.06 33.08 9.47 55.59 35.32 10.47 57.39 29.26 10.83 54.06 25.36 30.48 8.88 9.64 56.41 56.08 25.28 6.44 55.14 31.38 10.08 45.14 31.84 8.61 56.74 30.57 2.17 61.90 32.10 9.97 48.35 33.62 12.93 55.83 28.57 5.13 63.65 11.69 86255 13.59 138768 2.02 67697 青海 宁夏 新疆0.95 7.08 70000 说明:指标中,“流动资产周转次数”量纲为“次/年”;“全员劳动生产率”量纲为“元/人”;其它指标的量纲均为“%”。
⑴将表格复制到WINDOW的“记事本”中,保存为数据文件qyxy.text;记住保存位置。 ⑵利用桌面上的SPSS图标,打开SPSS;在出现的对话框中点击“取消”。
⑶点击“文件”菜单项,选择“读取文本数据”选项,在出现的对话框中“查找范围”找到数据文件qyxy.text,并单击确定,单击“打开”,出现文本输入向导(共6个步骤),依序作如下操作(也可以点击快捷工具栏上的“打开文件”按钮,直接打开文件qyxy.text):
step 1 of 6 :单击“下一步”。 step 2 of 6 :单击“下一步”。 这一步要注意:对话框中的第2个问题“Are variable names included at the top of your file?”必须选择“yes”项。
step 3 of 6 :单击“下一步”。 step 4 of 6 :单击“下一步”。
step 5 of 6 :在data preview中,分别单击各个字段名,在上面的data中可同时看到其数据类型,允许修改数据类型。这一步要确保“地区”属“string”,其他均属“numeric”;
step 6 of 6 :单击“完成”。
⑷在WINDOW打开数据文件qyxy.text,对比SPSS数据编辑窗口(SPSS Data Editor)中的数据(可放在同一桌面上对比观察),审查其正确否;将SPSS数据编辑窗口中的若干空白栏补上对应数据(由于数据格式问题或非数值型字符问题,数据传递过程中可能出现数据遗漏);关闭文件qyxy.text。
⑸在SPSS工具栏中单击“保存”按钮,将SPSS数据编辑窗口中的数据保存为文件qyxy.sav;记住保存位置。
⑹点击“分析”-“描述统计”-“描述统计分析”,在出现的对话框中,将左边数据(字段名)全部移到右边(单击“右箭头”),点击“确定”;将出现的输出窗口更名保存为qyxy.spo,同时理解输出的含义;记住保存位置。
⑺点击“图表”-“交互图表”-“条形图”,在出现的对话框中,左键单击“地区”(字段名)拖拽到右边横坐标轴空栏内,左键单击“利润率”(字段名)拖拽到右边纵坐标轴空栏内,点击“确定”;将出现的输出窗口更名保存为txt.spo,同时理解输出的含义;记住保存位置。
2、自我练习:⑴学习spss打开与关闭的各种方法,spss 5种类型的窗口特征及其功能;⑵试用Help获得英文帮助,熟悉获得帮助的操作;将练习内容写入实验报告。 3、完成实验报告
20.96 11.66 50.51 33.47 3.62 61.15 29.55 6.1l 59.39 1.88 1.08 18.28 -3.OO 94167 61714 95.92 91.12 94.25
第2章 数据文件的建立与编辑
2.1 数据文件与数据编辑器 一、SPSS数据文件的特点
SPSS数据文件(.sav)是一种二维结构的数据文件, 如下表: 变量名 个案case 变量 文件结构
4
数据
双击数据编辑器空白栏,输入第一行数据,可以定义变量,输入、修改数据,形成一个可供SPSS分析的数据文件。 二、数据的计量类型及变量定义 1.统计数据的测量(精确度) 尺度:可以运算的数值 名称(名义):如性别、颜色,不能参与运算
序数:表示等级,如1 喜欢、2 很喜欢,不能参与 运算
2.变量类型的定义
数值(Numeric):标准数值,默认8位 逗号(Comma):如12,345 还有句号(Dot)、日期、美元符号,等等
另外,变量标签对变量名作说明,变量值标签对变量值的含义作说明,如序数类变量 三、使用菜单编辑数据
变量及属性值的编辑:使用鼠标和数据(Data) 菜单中的命令实现
数据编辑功能:使用”双击”鼠标和编辑(Edit) 菜单中的命令实现
定义系统参数:系统初始状态和系统默认值的
设置是通过编辑(Edit)菜单中的选项(Options)对话框完成的,通过编辑菜单中的“选项”命令打开该对话框,进行系统状态和参数的设置 概率事件(记录、观测量):在SPSS的菜单中 用“Cases”词表示 2.2 建立数据文件
在 SPSS中,新建一个数据文件非常容易,只要打开SPSS, 系统就已经生成了一个空数据文件,用户只要按自己的需 要定义变量、输入数据,然后保存即可 一、定义变量
定义变量即要定义变量名称、变量类型、变量长度(小数点位数)、变量标签(或值标签)、变量的格式(显示宽度、对齐方式、缺失值标记等) 方法:点击“变量窗口”(Variable View),依序输入名 称或鼠标选择操作来完成 二、输入数据
方法:在数据窗口(Data View)中使用鼠标、键盘操作来完成 例 问卷数据的录入
调查问卷中的问题包括单选题、多选题和开放题等3种,如下例: 1.序号:
2.性别: 1男 2女 3.姓名:
4.家庭月收入:a. 3 000以下 b. 3 000 ~ 4 999 c. 5 000 ~ 6 999 d. 7 000 ~ 9 999 e. 10 000及以上 5.出生年月日(mm /dd/yyyy):
6.婚姻状况:a.未婚 b. 已婚 c.丧偶 d.离异
5
7.你在选择购物商场的时候,关注以下哪些因素:
a.交通条件 b.促销活动 c.购物环境 d.服务质量 e.其他 8.请问你购物的打折信息主要来自以下哪些渠道(限选 3项):
a.报纸 b. 杂志 c.电视 d. 收音机 e. 网络 f. 朋友介绍 g. 手机短信 h.其他,请指出
9.每天上网的小时数: 小时
其中第 1、3、5、9是开放题,题 1、9是数值型开放题,3是字符 型,5是日期型;第 2、4、6题是单选题,第 7、8题是多选题。 录入数据首先要分析问卷,对问卷进行编码,然后定义变量、录 入数据
注意:变量名可以使用汉字 1.开放题的录入
可以用XH、XM、CSNY、SWSS依序代替问卷中的1、3 、 5、9题 [编码] 如XM(姓名),依实际定义其属性
注意:在绝大多数情况下,SPSS给出的默认数据类型和数据精度可以满足需要,否则需要对不满足条件的属性选项作进一步的设置
输入中,字符型变量未输入数据时显示为空,数值型变量则显示为“.” 2.单选题的录入
可以用XB、YSR、HYZK依序代替问卷中的2、4、6 [编码] 采用“数值+值标签”方式录入数据 如对变量YSR,单击其属性“数值”,多次填写“值” 和“数值标签”,点击“增加”可得到: 1=“1000以下” 2=“1000-2000” 3=“3000以上” 3.多选题的录入
多选题不能被直接编码,需要使用几个变量来进行记录,在 SPSS中,常见的方法有两种,多重二分法和多重分类法 ⑴多重二分法
多重二分法:在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类变量(变量只有两个取值:“选中”与“未选”),它们各自代表对一个选项的选择结果
在 SPSS中对多选题进行数据录入与单选题的录入程序相同,均是首先在变量视窗进行变量定义,然后直接录入数据;多选题所不同的是变量的定义方式不同,而且,数据录入完毕,在分析之前,还需定义多选题集 如第 7题选择商场的 5个因素,定义 5个变量(可以根据自己的习惯和偏好选择是取一个长而详细的变量名,还是取个简短的名字),然后在变量标签中对变量的含义进行说明。
注意:这 5个变量的编码方式应该相同,每个变量都是二分类,1代表选择,0代表未选。
如果选项过多,比如 20个选项,要求被访者选出最关注的 5个,显然,绝大部分被选中的频率都会较低,使用多重二分法录入,则大部分数据都是 0,不仅增加了数据录
6
入的工作,而且不利于进行分析,这时不适合使用二分法进行数据录入,需使用多重分类法
⑵多重分类法 多重分类法,也是利用多个变量来对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定(如,第8题取[限选] 3个)。而且,这些变量须为数值型变量,利用值标签将答案标出,所有变量采用一套值标签。之所以称它为多重分类法,是因为每个变量都是多分类的(8个选择值),每个变量代表被访者的一次选择。多重分类法适合问题的选项较多的情况,尤其适合于“请在下列选项中选出您最喜欢的几个选项”一类的问题。 ⑶定义多选题集
在进行多选题录入时,只需要将相应的变量设定好即可进行操作,但是录入完毕后对多选题进行分析前,首先需要定义多选题集,然后才可以把多选题的全部变量当作一道题目来进行分析
SPSS在“分析”菜单中提供了专门的选项用来对付多选题,“表格”(Tables模块)和 “多响应变量分析”(Multiple Response)都可以用来设定多选题变量集。二者不同的是:“多响应变量分析”菜单中的“定义变量集”(Define Sets)过程定义多选题变量集的信息不能在 SPSS数据文件中保存,关闭数据文件后相应信息就会丢失,如果再次使用,则必须重新加以定义;而“表格”可以保存定义的信息。二者相同的是:操作基本相同
如在 SPSS中选择“分析”(Analyze)→“多响应变量分析”→“定义变量集”,打开定义多选题集的对话框。在该对话框中,需要注意:
(1)对于多重二分类法录入的多选题,这些变量必须为二分类,并按照相同的方式来编码(如都用 1 代表选中)。对于多重多分类法录入的多选题,这些变量须为多分类,并共用一套值和值标签。
(2)多重二分法编码方式中,计数值(counted value)是指用哪个数值表示选中;多重分类法编码方式需要设定取值范围,在该范围内的记录值将纳入分析。
(3)名称框:键入多选题变量集的名称,标签框可以为相应的多选题变量集定义一个名称标签
另外,对于形如问题 8一样的多选题,即含有“其他,请指出”答案的附加内容的问题,也是先把其他算作一个答案选项,而用另一个变量来表示其他的内容。在数据录入完毕后再对附加内容根据频次高低进行编码,以进行更为深入的分析。 2.3 编辑数据文件
编辑数据文件:查找错误的数据并对其修改 一、在单元格中编辑数据
如果知道某个变量的某个值输入错误,只要找到该数据的单元格,激活这个单元格,重新输入这个数据即可 定位到单元格的方法(适用于数据量较大情况): ①鼠标光标移至该变量所在的列中任意单元格,单击鼠标键 ②单击“编辑”(Edit)→“查找”(Find),打开查找对话框 ③在对话框中输入要查找的变量值 ④按“查找下一个”(Search Forward)按钮,如果查到了,自动激活数据编辑器,显示找到的变量值。如果没找到,系统打开SPSS对话框,报告找不到(Not Found!) ⑤按Close按钮,关闭对话框 二、变量的插入与删除 1.加入新变量
7
插入到右边界:把光标定位于最右边一个变量右面一个变量列上,双击左键进入“变量窗口”(Variable View)(也可以直接选择“变量窗口”进入),定义一个变量即可 变量之间插入一个变量:把光标定位于新变量要占据的那一列,单击“数据”菜单(Data)→插入变量(Inset Variable)命令,按用户要求定义它的名称和属性,完成新变量的插入;也可以直接选择“变量窗口”,进入后操作“数据”→插入变量 2.删除一个变量
①光标移至要删除的变量名称处,单击鼠标键,此步骤称为选中该变量。被选中的变量所在列全部单元格反向显示 ②按“编辑”(Edit)→剪切(Cut)或清除(Clear)命令,也可单击Delete键 无论哪种操作使选中的变量列消失,其右侧的诸变量均左移 三、记录的插入与删除 1.插入一个记录
①光标置于要插入记录的一行的任意单元格中,单击鼠标左键 ②单击“数据”(Data)→插入观测量(Inset Case)命令,结果在选中的一行上增加一个空行,可以在此行上输入该记录的各变量值 2.删除一个记录
①光标置于选定的记录号上,单击鼠标键;该记录全部单元格反向显示 ②单击“编辑”(Edit)→剪切(Cut)或清除(Clear)命令,也可单击Delete键 无论使用哪种方法进行记录和删除,其结果均为被选定的记录消失,其下面的记录上移。
四、数据的剪切、复制与粘贴
利用Edit菜单项的剪切、拷贝、粘贴的功能,其操作顺序如下: 选择操作对象→剪切与拷贝→选择正确的位置→粘贴 2.4 数据文件的操作 一、新建数据文件
方法:先在变量窗口定义变量,然后在数据窗中 录入数据,最后将新建立的数据文件保存到磁盘中 二、打开一个已有的数据文件
方法:光标移至文件名后面,按回车键;单击“打 开”或“OK”按钮;在文件表中双击文件名 三、保存数据文件
方法:使用File菜单中的“保存”(Save)或“另存 为”(Save as)命令;直接点击快捷工具栏上的“保存文件”按钮。文件保存格式可以是直接打开文件的任何一种,如*.txt,*.xls,见后面的表格 三、清除数据窗口 方法:按“文件”(File)→“新建”(New)→“数据文件”(Data)→选择“数据文件”命令后展开对话框,其中显示:
Save contents of data Editor to Untitled(将数据编辑窗口的数据保存到未命名的文件中)?选择“是”,展开Save Data As对话框,将数据存盘,之后清除数据窗口中的内容;若选择“否”按钮,不保存数据窗中的数据,直接清除数据窗口; 选择Cancel按钮则取消对数据窗口中数据的操作。数据窗口保持不变 四、打开其他格式的数据文件 1.可以直接打开的文件
8
2.使用数据库查询打开
利用通用数据库ODBC接口读取数据文件 3.使用文本导入向导读入文本文件
(一)试对以下问卷进行编码,并录入所选择的答案(加下划线为所选的答案)。
农户基本经营状况调查
1.家庭人口状况 总人口 5 其中 男性 3 女性 2 劳动力 3 就学人口 1 65岁以上或病残丧失劳动力人口 1 家庭户性质:①本地户 ②外来户 (迁入年份:_________) 2.就业类型:①纯农户 ②非农户 ③农兼非 ④非兼农 ⑤未就业 离开农业已有__________年 3.纯农就业者情况 经营范围 1.种植业 2.养殖业 3.林业 4.其他 经营项目安排的依据是 1.自家需要 2.凭习惯 3.随大流 4.合同订单 5.去年市场行情 6.分析当年市场行情 7.政府命令 8.其它 生产中遇到难题时通常是 1.找当地农技人员 2.自己找资料学习摸索 3.请教有经验的农民 4.听天由命 5.电视、农技杂志等媒体 6. 其他 产品去向 1.自己消费 2. 小部分出售(%) 3.大部分出售(%) 4.全部出售 (要针对该农户主要产品问答,调查员作记录) 产品出售渠道 1.按合同交货 2.卖给加工企业 3.卖给商贩 4.委托出售 5.自己零售 6. 批发市场 7.其他 4.兼业者从事非农产业情况
家里有 1 人参加非农劳动,是否壮劳力?① 是 ②否
业务范围 ①工业 ②建筑业 ③运输 ④仓储 ⑤餐饮业 ⑥社会服务业 ⑦其他 工作年数 5 年,(按整数算,超过半年算一年)
投入时间大约占全年工作时间的% 70% 收入大约占全年总收入的%_______90%______ 5.是否拥有下列生产工具及设施(如有,在该栏中划√) 耕牛 拖拉机 √ 1 抽水机 收割机 冬暖式大棚 汽车 其它大型农具 ( ) 自家还是合伙 购买或租用? 说明:自家购买为1,合伙2,租用3 6.是否拥有下列消费品及生活设施(如有,在该栏中划√) 彩电 √ 电冰箱 洗衣机 电话 √ 手机 电脑 拨号上网 宽带上网 轿车 摩托车 √ (二)定义变量 试录入以下数据文件,并按要求进行变量定义。
9
数据: 学号 姓名 性别 生日 男 男 男 男 男 女 女 女 女 女 男 男 男 男 男 女 女 女 女 女 身高体重英语(总分(cm) (kg) 100分) 75 78 65 79 82 81 77 67 64 70 84 85 79 75 76 80 79 75 90 71 数学(总分100分) 79 76 88 82 77 74 69 73 77 80 85 80 79 80 69 83 82 97 75 80 生活费($代表人民币) 345.00 435.00 643.50 235.50 867.00 1233.00 767.80 553.90 343.00 453.80 843.00 657.40 1863.90 462.20 476.80 452.80 244.70 253.00 200201 刘一迪 200202 许兆辉 200203 王鸿屿 200204 江飞 200205 袁翼鹏 200206 段燕 200207 安剑萍 200208 赵冬莉 200209 叶敏 200210 毛云华 200211 孙世伟 200212 杨维清 200213 欧阳已祥 200214 贺以礼 200215 张放 200216 陆晓蓝 200217 吴挽君 200218 李利 200219 韩琴 200220 黄捷蕾 1982.01.12 156.42 47.54 1982.06.05 155.73 37.83 1982.05.17 144.6 1982.08.31 161.5 1982.09.17 161.3 1982.12.21 158 1982.10.18 161.5 1982.06.01 164.3 1982.09.12 144 1981.10.13 157.9 1981.12.6 176.1 38.66 41.68 43.36 47.35 47.44 33.85 33.84 49.23 54.54 1982.07.06 162.76 47.87 1981.11.21 168.55 50.67 1981.09.28 164.5 1981.12.08 153 1981.10.07 164.7 1981.09.09 160.5 1981.09.14 147 1981.10.15 153.2 1981.12.02 157.9 44.56 58.87 44.14 53.34 36.46 30.17 40.45 要求:
1)变量名同表格名,以“()”内的内容作为变量标签。对性别(Sex)设值标签“男=0;女=1”。 2)正确设定变量类型。其中学号设为数值型;日期型统一用“mm/dd/yyyy“型号;生活费用货币型。
3)变量值宽统一为10,身高与体重、生活费的小数位2,其余为0。 (三)完成实验报告
第3章 数据整理
在SPSS中,数据文件的管理功能集中在Data和Transform 菜单上,基本内容包括数据转换、文件的拆分与合并、数据汇总等 3.1数据转换
一、根据已有变量建立新变量
方法:打开指定文件,删除数据窗口(Data View)的数据,点击变量窗口,选择某变量,按要求修改变量名称及各种属性,最后另存为某文件 二、数据文件的转置
方法:打开指定文件,按“数据”→“行列转换”(Transpose),打开行列转换对话框,按shift全选 左边所列变量,利用添加键,将所选变量全部加入右边空白区域,点击“确定” (若只选某几个变量,则其它变量将丢失;变量和个案互换)
10
三、数据排序
方法:按“数据”→“观测量排序”,打开“观测量排序”对话框,利用添加键和鼠标操作,选择排序的变量及升降序,点击“确定”(第一个选择的变量为第1排序变量,排序方法类似数据库[表]的排序)
当所选择的变量具有相同的值时称之为结,其秩次的决定原则可以在识别相同的观测量(Rank Cases:Ties)对话框中指定 四、计算新变量、数据的重新编码 1.计算新变量(Compute) “计算”:利用SPSS函数、算术表达式对满足条件的记录计算出一个新结果,并保存到指定变量
方法:打开指定文件→ Transform(转换)→Compute(计算),打开计算对话框,按要求设置; 按“确定” 2.数据的重新编码
数据的重新编码(Recode):对变量值进行分组合并,包括将连续变量转化为等级变量或将等级变量进行合并
方法:打开指定文件→Transform(转换)→ Recode(重新编码),打开计算对话框,按要求设置;按“确定” 3.2 数据文件的拆分与合并 一、数据文件的拆分
这里的“拆分”指在同一个数据文件中按某个条件进行分组排序,为统计创造条件,如为统计男、女同学的平均成绩,将学生数据文件按性别进行拆分(分组排序) 方法:点击“数据”→“拆分文件”,打开拆分文件对话框,按分组排序要求作相应操
作:分析所有观测量,不创建新的群组:系统的默认值,选择此项可以恢复到未拆分时的状态; 较分组:选择此项,则拆分文件的各分组以对照组的形式显示分析结果与说明; 根据分组安排输出:按分组变量组织输出选项,若选择此项,则对每个拆分文件的分组逐个显示分析的结果。
分组变量存放栏:最多可同时选择 8 个分组变量,框下有两个选择项:
按组变量对文件进行排序:要求按所选择的变量对数据文件进行排序,作为拆分文件时才起作用;
文件已经排序:数据文件已经按所选择的变量排序。 选择完成后,单击“OK”按钮执行拆分过程
注意:对数据文件进行拆分处理后,在以后的运算过程中,拆分处理一直有效,直到取消拆分处理或更改拆分变量后,才会有新的变化 二、数据文件的合并
合并文件:增加观测量(Add Case)、增加变量 1.增加观测量(记录)
对话框右侧列出的变量是在两个数据文件中名称相同、类型相同的变量;左侧“不配对变量”框中列出的变量是当前文件中的未配对变量
⑴只合并两个数据文件中具有相同名称的变量的记录时,只需单击“确定”(OK)按钮就可获得一个新文件(包含对话框右侧列出的变量及数据)
⑵用鼠标先选取当前文件的一个变量,然后按住Ctrl键,拉动滑动条,用鼠标选取另外一个文件的某变量,接着单击“配对”(Pair)按钮将它们作为一个配对变量选入新的数据文件中,单击OK按钮
⑶在对话框右侧中选择一个变量单击向左箭头按钮即可取消该变量
11
2.增加变量(Add Variables)
增加变量:是从一个指定的外部数据文件中取得一个或几个变量的数据(包括变量名称)增加到当前工作的数据文件中(相当于两个数据文件的横向合并) 对话框说明:左侧“按关键变量合并”,即要求两个数据文件必须有一个共同的关键变量,而且这两个文件中的关键变量还存在一定数量的相同值的记录。
右侧新工作数据文件矩形框中,列出的变量是可以在新工作数据文件中存在的变量,左侧排除框中列出的两个文件中重复的同名变量,他们不能进入合并后新生成的数据文件中。
3.3数据分类汇总
分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。
方法:在左侧的源变量框中,选择一个或多个变量作为分类变量进入“中断变量”(Break)框中,如学生文件中的班级。
在左侧的源变量框中,选择将要汇总的变量选入汇总变量框中,即对这些变量的值进行分类汇总,如学生文件中的英语成绩。
单击“函数”按钮,展开汇总函数对话框。在该对话框中可以确定汇总变量使用的函数,系统的默认函数为平均数(共5类函数可以选择) 3.4对观测量的加权处理
在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,如某个变量值出现次数较多,这时候,一般使用频数格式录入数据,即相同取值的观测只录入一次,另加一个频数变量用于记录该数值共出现了多少次。这样就需要在分析时用到 “观测量加权”。
该过程的使用极为简单,对话框界面上有两个单选按钮,分别是不按权重记录和按某变量权重记录,如果选择后者,则需要选中一个权重变量。 进行权重记录以后,SPSS界面右下角会出现“W eight On”的字样,且可以被存储到数据集中,直到用户取消加权,否则一直按加权对数据进行处理
、试录入以下数据文件,保存为“数据1.sav”。 序号 性别 职称 在公司工作的时间 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
年龄 30 25 28 25 35 29 34 30 27 38 35 32 25 30 34 工资 2000 1900 2000 1500 3000 1850 3200 1950 1600 4200 3000 2000 1550 2100 3500 男 女 女 男 男 男 男 女 女 女 男 男 女 女 女 2 2 2 1 3 2 3 2 1 4 3 2 1 2 3 5 4 5 1 8 3 10 8 3 15 8 5 2 9 14 12
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
女 男 女 男 男 女 男 男 男 男 男 女 女 女 男 1 4 3 2 2 2 2 3 3 4 4 2 3 1 3 3 10 9 6 2 3 10 20 16 25 10 5 15 1 6 26 36 34 28 28 28 30 50 45 48 34 29 38 25 35 1600 4000 3150 1800 1800 1850 1900 3400 3300 4800 4500 2000 3200 1500 3100 2、试录入以下数据文件,保存为“数据2.sav”。 序号 性别 职称 在公司工作的时间 31 32 33 34 35 36 37 38 39 40
3、试将数据2合并到数据1,合并后的数据文件另存为“数据3.sav”。
4、将工资进行重编码,2000以下(含2000) 为1,2000-3000为2,3000-4000为 3,4000以上为4,重编码的结果保存为“工资等级”。新数据文件保存为“数据4.sav”。
5、求出各职工刚进入公司时的年龄,保存为“初入年龄”。新数据文件保存为“数据5.sav”。
6、试按各职员的工资数进行排秩,排秩要求工资最高的排为第一,相同数额取平均等级。排秩后的数据文件保存为“数据6.sav”。
7、试按各职员的工资数分性别进行排序,要求先排男性,后排女性。同一性别按工资从高到低排列。排序后的数据文件保存为“数据7.sav”。
8、试寻找一个新数据文件,将其中一些新变量合并到数据文件7中,合并后的新数据文件保存为“数据8.sav”。 9、完成实验报告
男 男 男 女 女 女 男 男 男 男 3 4 4 2 1 4 3 3 4 3 16 30 10 5 5 18 5 15 18 6 年龄 46 51 33 29 33 48 37 38 48 35 工资 3300 5000 4500 2000 1500 4700 3050 3200 4700 3100
13
第4章 统计图形
4.1 常用统计图种类 一、单变量图
一般用于考察某个变量的分布类型 1.连续变量
直方图:横轴表示取值区段,纵轴表示频数,直观描 述数量变化规律
箱图:使用百分位数指标,如中位数、四分位数描述 数量变化规律 2.分类变量
简单条形图:展示变量各类别频数,与直方图类似 饼图[或Pareto图]:表示各类别占总体的构成比例 二、双变量图
一般用于分析两个变量间的数量联系 1.连续因变量 线图、散点图 2.分类因变量 条形图
4.2 统计图的操作 一、常规图形输出
方法:打开指定文件→图表→选择相应图形命令(选 项)→按要求设置→按“确定” 二、交互式绘图
交互式绘图:利用Interactive Graph的对话框进行 基本特点:
选择变量时,提供了提供了拖放功能 变量类型不同,表示符号不同 采用选项卡形式,层次清楚 绘图交互灵活,功能强大
方法:打开指定文件→图表→交互图表→选择相应图 形命令(选项)→按要求设置→按“确定”
1、试以spss自带的某一个数据文件为例进行分析,了解数据分布的基本特征,完成条形图、圆图、直方图、散点图等的生成与编辑方法,写入实验报告。
2、为研究工人矽肺患病率与工龄的关系,某市疾病控制中心收集了以下资料。
题 2表
工龄 <5年 5年- 10年- 合计
14
甲矿 检查人数 5406 2537 2169 10112 矽肺人数 39 77 265 381 患病率 0.0072 0.0304 0.1222 0.0377 检查人数 1856 2734 3185 7775 乙矿 矽肺人数 11 84 347 442 患病率 0.0059 0.0307 0.1089 0.0568 对于题 2表所示资料,请选用1或2种统计图进行统计描述。
3、某研究者调查了甲、乙两地各240例被访者对互联网的使用情况,资料如题 3表所示,请绘制饼图。
题 3表 地区 甲地 乙地 合计
每天上网 经常上网 偶尔上网 从不上网 合计 49(19.84% ) 92(37.25% ) 65(26.32% ) 41(16.60% ) 247(100.00% ) 62(21.83% ) 113(39.79% ) 67(23.59% ) 42(14.79% ) 284(100.00% ) 111(20.90% ) 205(38.61% ) 132(24.86% ) 83(15.63% ) 531(100.00% ) 4、完成实验报告
第5章 基本统计分析
5.1频数分析
利用频数分析可以方便地对数据按组进行归类整理,形成各变量的不同水平(分组)的频数分布表和图形,以便对各变量的数据的特征和记录分布状况有一个概括的认识 方法:按“分析”→“描述统计”→“频数分布表”,打开频数分析对话框 在左侧的源变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的变量框中;选中“显示频数分布表”复选项,将显示频数分布表;单击“统计”、“图表”、“格式”打开各对话框,在对话框中确定需要的输出结果及格式
例 有27个工人看管机器台数如下:
5 4 2 4 3 4 3 4 4 2 4 3 4 3 2 6 4 4 2 2 3 4 5 3 2 4 3 试分析这27人看管机器台数的分布情况
5.2描述性统计分析
描述统计分析通过计算平均值、算术和、标准差、最大值、最小值、方差、极值和均值标准误差等统计量对变量进行描述,并对数据标准化 方法:按“分析”→“描述统计”→“描述统计分析”,打开“描述统计分析”对话框 在左侧的源变量中选择一个或多个变量作为待分析变量移入变量框中;选中“将标准化数值保存为变量”复选项,对所选择的每一个变量进行标准化产生相应的Z变量,作为新变量保存在数据窗中,其变量名为相应变量名加前缀Z。
单击“选项”按钮,展开选项对话框,在对话框中可以指定其他统计量与输出结果显示的顺序
单击OK按钮
数据探索方法:读取一个数据文件→按“分析”→“描述统计”→“探索分析”,打开探索对话框
从左侧的源变量中,选择一个或多个数值型变量作为因变量进入“因变量列表”框中;指定分组变量;在“显示”栏中选择输出项,根据需要分别点击“统计”、“绘图”、“选项”;点击“确定”
1、以实验三中保存的“数据8.sav”或其他数据文件为例,熟悉report下面的4个分析命令。
⑴在线分析
15
⑵摘要分析 ⑶行形式分析 ⑷列形式分析
2、以实验三中保存的“数据8.sav”为例,要求用基本统计分析完成以下任务: ⑴求出性别、工资等级的频次分布表,性别的众数、工资等级的中位数,并用工资等级做条形图。
⑵求工资的均值、最大值、最小值、标准差、四分位数、十分位数,并用工资做带正态曲线的直方图。
⑶分性别求工资的标准分。
⑷求工资的峰度、偏度,对照带正态曲线的直方图理解结果。 ⑸对工资进行探索性分析。 3、完成实验报告
第6章 相关分析与回归分析
6.1 相关分析
相关分析是研究变量间密切程度的一种常用统计方法 一、变量间相关类型
直线相关:两变量呈线性相关
曲线相关:两变量存在相关趋势,但并非线性,而 是呈各种可能的曲线趋势
正相关与负相关:如A变量增加时B变量也增加,则 称为正相关反之,则为负相关
完全相关:得知A变量的取值就可以准确推算出B变 量的取值
当数据为有序变量或者名义变量时,一般不再考虑直 线、曲线相关的问题,但正、负相关和完全相关这些 概念则仍然适用
二、SPSS相关分析功能 Bivariate命令:用于进行两个或多个变量间的参数或非参数相关分析,如果是多个变量,则给出两两相关的分析结果;这是 Correlations子菜单中最为常用的一个过程 Partial Correlations 命令:若两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数
Distance命令:对变量或记录进行相似性或不相似测度,用于因子分析、聚类分析和多维尺度分析的预分析 三、简单相关分析
当两个连续变量在散点图上的散点呈现直线趋势时,就可以认为二者存在直线相关趋势,也称为简单相关趋势。Pearson相关系数是人们定量地描述线性相关程度好坏的一个常用指标 相关系数(r):描述变量间线性关系的程度和方向的统计量 相关系数具有如下特点:(1)相关系数 r是一个无单位的量值,且 -1 < r<1;(2)r>0 为正相关,r<0 为负相关。(3)|r|越接近于 1,说明相关性越好,|r|越接近于 0,说明相关性越差
16
方法:画散点图→Analyze→Correlate→Bivarite,打开Bivarite Correlations(二元相关变量分析)对话框,决定选项,单击“确定”
Bivariate对话框:上部用于选择希望进行相关分析的变量;中部的 Correlation Coefficients复选框组用于进一步选择不同的相关分析指标,有 Pearson相关系数、等级相关系数和秩相关系数三种可供选择,默认为前者;在其下方的 Test of Significance单选框组用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,默认为双侧检验;最下方的 Flag significant correlations复选框要求在结果中用星号标记有统计学意义的相关系数,默认选中。此时 P <0.05 的系数值旁会标记一个星号,P <0.01则标记两个星号。
Options子对话框主要用于选择需要计算的描述统计量(包括均数、标准差、离均差平方和以及协方差阵)和缺失值处理方法,可根据需要自行选择
例上海医科大学儿科医院研究某种代乳粉的营养价值是用大白鼠做试验,得大白鼠进食量(g)和体重增量(g)间的关系的原始数据如下,试分析两者有无直线相关关系。 动物编号 1 2 3 4 5 6 7 8 9 10 进食量(g)feed 820 780 720 867 690 787 934 679 639 820 体重增量(g)weight 165 158 130 180 134 167 186 145 120 15 利用散点图可以发现两变量间存在着明显的现线性趋势
依步骤操作,将feed、weight变量移入右侧变量框中,点击确定 可以看到变量 feed 和 weight的相关系数为 0.940,对相关系数的检验双侧的 P 值小于 0.01,所以可以认为 feed 和 weight两者有非常密切的关系
本例中,也可以选择其他2种相关系数,但计算效能不如Pearson相关系数 6.2简单回归分析
一、一元线性回归方程
简单回归分析:寻找因变量数值随自变量变化而变化的直线趋势,并在散点图上找到这样一条直线,相应的方程也就被称为直线回归方程。 直线回归方程:y=a+bx
a为回归直线的截距,b为回归直线的斜率,也称回归系数
通过回归方程解释两变量之间的关系会显的更为精确,例如可以计算出大白鼠每进食一个单位代乳粉体重平均增加的单位数量 通过回归方程还可以进行预测和控制,预测就是在回归方程中控制了变量 x的取值范围就可以相应的得到变量 y的上下限,而控制则正好相反,也就是通过限制结果变量 y的取值范围来得到x的上下限 二、方法
按Analyze→Regression→Linear Regression对话框
在左侧的源变量框中选择一个变量作为因变量,将其送入Depndent框中;选择一个或多个变量作为自变量,将其送入Independent(s)框中
单击Statistics按钮,打开Statistics对话框选择输出的统计量 例 上例得到了线性相关结论,因此直接进行回归分析,操作如下: Analyze→Regression→Linear Dependent框:weight Independent框:feed
结果中,第1个表是对模型中各个自变量纳入模型情况进行的汇总,可以看到进入模型的只有一个 feed变量,变量选择的方法为强行进入法,也就是将所有的自变量都放入模型中
17
第2个表是对模型的简单汇总,其实就是对回归方程拟和情况的描述,通过这张表可以知道相关系数的取值(R),相关系数的平方即决定系数(R Square),校正后的决定系数(Adjusted RSquare)和回归系数的标准误(Std. Errorofthe Estimate) 第3个表即为对模型进行方差分析的结果,可以看到方差分析的结果 F 值为 60.197,P 值小于 0.05,所以该模型是有意义的(在简单回归中方差分析的结果和 t检验的结果完全等价)
最后一张结果表格最重要,其中给出了回归方程中常数项、回归系数的估计值和检验结果,可见 a = - 17.357,b = 0.222,通过它就可以写出回归方程了,如下: 体重增量 = -17.357 +0.222 ×进食量
1、试以spss自带的某一个数据文件为例进行分析,了解变量是否相关,发掘数据中的规律,写入实验报告。
2、研究投资性变量与国民收入之间的相关关系。投资性变量选取5个变量:工业劳动者人数、农业劳动者数、货物周转量(铁路、公路、水路、民用航空、管道输油或气量)、生产性建设投资、建设安装工程投资;国民收入变量为:农业国民收入、工业国民收入、建筑业国民收入、运输业国民收入。现抽取从1963年~1982年共20年的统计数据(见下表),试选一对较合适的变量进行相关与回归分析,并解释统计结果。
表 1 统计数据 序号 工业劳动者人数X1 农业劳动者人数X2 货物周转量X3(亿吨生产性建设投资X4(亿元) 建设安装工程投资X5农业国民收入Y1 工业国民收入Y2 建筑业国民收入Y3(亿元) 运输业国民收入Y4(亿元) (万人) (万人) 公公里) (亿元) (亿元) (亿元) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1632 1695 1828 1974 2032 2092 2365 2809 3233 3496 3704 3900 4284 4692 4809 5009 5340 5600 5796 5930 21968 22803 23398 24299 25167 26065 27119 27814 28400 28286 28861 29222 29460 29448 29345 29426 29425 30211 31174 32013 2348 2750 3463 3901 3050 3109 3753 4565 5205 5644 6294 6314 7297 6904 7969 9829 10907 11517 11616 12403 78.05 64.66 488.0 549.0 337.0 422.0 505.0 606.0 505.0 449.0 587.0 772.0 873.0 920.0 995.0 986.0 40.0 50.0 53.0 58.0 55.0 44.0 60.0 80.0 91.0 88.0 92.0 99.0 39.0 44.0 58.0 66.0 52.0 49.0 62.0 74.0 80.0 84.0 89.0 85.0 96.0 92.0 106.0 118.0 121.0 117.0 120.0 133.0 112.26 92.38 144.74 109.18 641.0 172.70 119.37 692.0 114.21 86.62 91.22 63.77 703.0 714.0 163.93 114.68 722.0 275.96 168.64 795.0 288.82 199.68 826.0 272.82 194.00 830.0 275.88 193.43 911.0 281.76 197.60 951.0 335.88 228.74 985.0 305.81 212.91 996.0 303.47 227.09 981.0 1113.0 113.0 1050.0 120.0 1195.0 124.0 396.24 300.85 1065.0 1408.0 125.0 365.14 343.80 1318.0 1536.0 130.0 359.23 381.07 1467.0 1688.0 169.0 252.43 317.32 1658.0 1709.0 175.0 302.90 397.35 1893.0 1792.0 194.0 3、完成实验报告
18