SPSS多元线性回归分析教程 下载本文

线性回归分析的SPSS操作

本节内容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。

一、一元线性回归分析 1.数据

以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。数据编辑窗口显示数据输入格式如下图7-8(文件7-6-1.sav):

图7-8:回归分析数据输入

2.用SPSS进行回归分析,实例操作如下: 2.1.回归方程的建立与检验 (1)操作

①单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x选入到自变量(Independent)框中。在方法即Method一项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。具体如下图所示:

1

图7-9 线性回归分析主对话框

②请单击Statistics…按钮,可以选择需要输出的一些统计量。如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。Model fit 项可输出相关系数R,测定系数R2 ,调整系数、估计标准误及方差分析表。上述两项为默认选项,请注意保持选中。设置如图7-10所示。设置完成后点击Continue返回主对话框。

图7-10: 线性回归分析的Statistics选项 图7-11:线性回归分析的Options选项

回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。由于此部分内容较复杂而且理论性较强,所以不在此详细介绍,读者如有兴趣,可参阅有关资料。

③用户在进行回归分析时,还可以选择是否输出方程常数。单击Options…按钮,打开它的对话框,可以看到中间有一项Include constant in equation可选项。选中该项可输出对常数的检验。在Options对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则,这里我们采用系统的默认设置,如图7-11所示。设置完成后点击Continue返回主对话框。

④在主对话框点击OK得到程序运行结果。

2

(2)结果及解释

上面定义的程序运行结果如下所示:

①方程中包含的自变量列表 同时显示进入方法。如本例中方程中的自变量为x,方法为Enter。

Variables Entered/Removed

Model Variables Entered Variables Removed Method

1

X

.

Enter

a All requested variables entered. b Dependent Variable: Y

②模型拟合概述 列出了模型的R、R2 、调整R2 及估计标准误。R2 值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。 Model Summary

Model

R R Square Adjusted R Square Std. Error of the Estimate

.738

.723

6.2814

1 .859

a Predictors: (Constant), X

本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为0.859,拟合线性回归的确定性系数为0.738,经调整后的确定性系数为0.723,标准误的估计为6.2814。

③方差分析表 列出了变异源、自由度、均方、F值及对F的显著性检验。 ANOVA

Model

Sum of Squares df Mean Square

1995.791

1

F Sig.

1 Regression

Residual

Total

1995.791 50.583 .000 39.456

710.209 18 2706.000 19

a Predictors: (Constant), X b Dependent Variable: Y

本例中回归方程显著性检验结果表明:回归平方和为1995.791,残差平方和为710.209,总平方和为2706.000,对应的F统计量的值为50.583,显著性水平小于0.05,可以认为所建立的回归方程有效。

④回归系数表 列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显

3

著性检验。 Coefficients

Unstandardized

Coefficients

Model

B Std. Error -7.080 .730

11.068 .103

Standardized Coefficients

Beta

t Sig.

1 (Constant)

X

-.640 .530 .859 7.112 .000

a Dependent Variable: Y

本例中非标准化的回归系数B的估计值为0.730,标准误为0.103,标准化的回归系数为0.859,回归系数显著性检验t统计量的值为7.112,对应显著性水平Sig.=0.000<0.05,可以认为方程显著。因此,本例回归分析得到的回归方程为:Y=-7.08+0.73X

对方程的方差分析及对回归系数的显著性检验均发现,所建立的回归方程显著。 2.2.回归方程的预测

(1)通过因变量的观测值和回归预测值的比较,可以了解许多关于模型和各种假定对数据的适合程度,上面回归方程的检验结果表明,所得到的回归直线是有效的。在回归方程有效的前提下,研究者往往希望对于给定的预测变量X的一个具体数值(如X0),预测因变量Y的平均值或者预测某一个观测的y0的值。如对于上面的例子,我们可以用回归方程来预测智商x0=120的被试,这次的平均成绩;也可以用来预测假如一名工作人员的智商是120,那么他参加这次考试,将会得多少分。

上面两种情况下,点预测值是相同的,不同的是标准误。 Y0=A+BX0=-7.08+0.73×120=86.52

在X0点,Y的预测均值的估计标准误为公式(7-24);在X0点,Y的个体预测值的估计标准误为公式(7-25)。

(2)SPSS可以提供上述两类预测值,具体操作如下:

在如图7-9的线性回归模型定义的主对话框中,单击save,出现如下对话框(图7-12):

4

图7-12:预测值的定义选择窗口

在上面的窗口,可以选择输出变量的点预测值和平均值及其个体值预测的区间估计,如上图,我们在Predicted Values选择区选择复选项Unstandardized,以输出非标准化的点预测值;在下面的Prediction Intervals选择区选择复选项Means和Individual,下面的置信水平采用系统默认的95%,然后点击Continue返回主对话框,在主对话框中点击Ok,得到的输出结果。

(3)结果及解释

除了上面介绍的回归方程建立和检验的结果外,在数据编辑结果,因为选择了需要保存的预测变量的信息,数据编辑窗口数据显示如下:

5

图7-13:保存预测之后的数据窗口

从上面的结果可以看出,在以前的数据的基础上,新生成了五列数据,第一列命名为pre_1的变量对应的数据表示预测变量对应的因变量非标准化的预测值,例如,智商为120 的被试,用回归方程预测的这次考试的点预测值为80.49;均值预测的区间估计的上下限分别用变量lmci_1和umci_1表示,个体预测值的区间估计的上下限分别用变量 lici_1 和uici_1表示,例如,智商为120 的被试,均值95%的预测区间为:(76.42,84.56); 个体预测95%的预测区间为:(66.68,94.30)。

二、多元线性回归 1.数据

以本章第四节例4为例,简单说明多元线性回归方程的建立与检验。数据输入如图7-14(文件7-6-2.sav):

6

图7-14:多元回归分析所用数据 2.SPSS操作

(1)多元线性回归所用命令语句与一元线性回归相同,同样可以通过单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x1和x2选入到自变量(Independent)框中。 (2)点击Method后面的下拉框,在Method框中选择一种回归分析的方法。SPSS提供下列几种变量进入回归方程的方法:

·Enter选项,强行进入法,即所选择的自变量全部进入回归模型,该选项是默认方式。 ·Remove选项,消去法,建立回归方程时,根据设定的条件剔除部分自变量。

·Forward选项,向前选择法,根据在Option对话框中所设定的判据,从无自变量开始,在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直到所有符合判据的变量都进入模型为止。第一个引入回归模型的变量应该与因变量相关程度最大。

·Backward选项,向后剔除法,根据在Option对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。

·Stepwise选项,逐步进入法,是向前选择法和向后剔除法的结合。根据在Option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程。根据向前选择法则进入自变量;然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。

这里我们采用系统默认的强行进入法,其他选项均采用系统默认的设置。

7

(3)点击OK,得到上面定义模型的输出结果为: 3.结果及解释

(1)方程中包含的自变量列表 同时显示进入方法。如本例中方程中的自变量为x1和x2,选择变量进入方程的方法为Enter。 Variables Entered/Removed

Model Variables Entered Variables Removed Method

1

X2, X1

.

Enter

a All requested variables entered. b Dependent Variable: Y

(2)模型概述 列出了模型的R、R 、调整R 及估计标准误。R 值越大所反映的自变量与因变量的共变量比率越高,模型与数据的拟合程度越好。 Model Summary

Model

R R Square Adjusted R Square Std. Error of the Estimate

.991

.988

.82

222

1 .996

a Predictors: (Constant), X2, X1

上面所定义模型确定系数的平方根为0.996,确定系数为0.991,调整后的确定系数为0.988,标准误为0.82。

(3)方差分析表 列出了变异源、自由度、均方、F值及对F的显著性检验。 ANOVA

Model

Sum of Squares df Mean Square

518.219 4.681 522.900

2 7 9

F Sig.

1 Regression

Residual

Total

259.109 387.469 .000

.669

a Predictors: (Constant), X2, X1 b Dependent Variable: Y

本例中回归平方和为518.219,残差平方和为4.681,总平方和为522.900,F统计量的值为387.467,Sig.<.05,可以认为所建立的回归方程有效。

8

(4)回归系数表 列出了常数及回归系数的值及标准化的值,同时对其进行显著性检验。 Coefficients

Unstandardized

Coefficients

Model

B Std. Error -31.499 1.077 .828

3.397 .125 .086

Standardized Coefficients

Beta

t Sig.

1 (Constant)

X1 X2

-9.272 .000 .499 .555

8.612 .000 9.581 .000

a Dependent Variable: Y

本例中因变量Y对两个自变量X1和X2的回归的非标准化回归系数分别为1.077和0.828;对应的显著性检验的t值分别为8.612和9.581,两个回归系数B的显著性水平Sig.=0.000均小于0.05,可以认为自变量X1和X2对因变量Y均有显著影响。本例回归分析得到的回归方程为:Y=-31.499+1.077X1+0.828X2。

9