SAS统计(网) 下载本文

; proc gplot; plot y*x=group ; symbol1 i=rl v=star; symbol2 i=rl v=plus; proc reg; model y=x; by group; proc glm data=a.ytli6_1; class group; model y= x group; run; x为协变量 做散点图,比较两组的相关趋势 按group变量分组绘图 在散点图上加回归线 做x、y的回归分析

第八章 直线回归、直线相关与logistic回归

直线回归与相关是联系非常紧密的两种统计分析方法,事实上SAS用于回归分析的程序步REG也可提供相关分析的结果,但进一步的深入分析仍应采用相应的程序步--CORR才能实现。本章前三节主要介绍两个常用的用于直线回归和相关分析的程序步――REG过程和CORR过程。后两节则介绍多元线性回归和Logistic回归的方法和所用的过程。

§8.1 引 例

例8.1 今测定20名糖尿病人血糖水平(mmol/L)与胰岛素水平(mU/L),试以血糖为应变量Y,胰岛素为自变量X建立直线回归方程,并求两者的相关系数(医统第二版P104例6.1)。

解:显然,在建立数据集时应指定血糖与胰岛素两个变量。再调用GPLOT过程绘制散点图观察有无直线趋势,然后调用REG过程求出直线回归方程,最后调用CORR过程求出相关系数。 ① 设定数据库环境: LIBNAME A ’C:\\USER’; ② 数据步,建立数据集: DATA A.YTLI7_1; INPUT Y X @@; CARDS; 12.21 15.2 14.54 16.7 12.27 11.9 12.04 14.0 7.88 19.8 11.10 16.2

41

10.43 17.0 13.32 10.3 19.59 5.9 9.05 18.7 6.44 25.1 9.49 16.4 10.16 22.0 8.38 23.1 8.49 23.2 7.71 25.0 11.38 16.8 10.82 11.2 12.49 13.7 9.21 24.4 ; RUN; ③ 做散点图,估计两变量有无直线趋势: PROC GPLOT DATA=A.YTLI7_1; PLOT Y*X; RUN; ④ REG过程,进行直线回归分析: PROC REG DATA=A.YTLI7_1; MODEL Y = X; RUN; ⑤ CORR过程,进行相关分析: PROC CORR DATA=A.YTLI7_1; VAR X Y ; RUN; §8.2 REG过程

SAS/STAT模块提供了近十个用于回归分析的过程,其中REG过程是进行一般线性回归分析最常用的过程,该过程采用最小二乘法拟合线性模型,可产生有关数据的一些描述统计量、参数估计和假设检验以及散点图,输出预测值、残差、学生化残差、可信限等,并可将这些结果输出到一个新的SAS数据集中。 8.2.1 语法格式

REG过程的语法格式如下:

PROC REG [DATA=<数据集名> [选项] ] ; MODEL 应变量名=自变量名列/ [选项] ;[1] [VAR 变量名列;[2] FREQ 变量名;

42

WEIGHT 变量名; BY 变量名列; OUTPUT ...; PLOT <纵坐标变量*横坐标变量[=绘图符号]...> / [选项];[3]] 8.2.2 语法说明

程序中全部语句中只有第一行和MODEL语句是必需的,其他都可以省略。

1. MODEL语句,必需语句,定义回归分析模型 2. VAR语句为可选的,指定用于计算交叉积的变量

3. PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。

【过程选项】

? ? ? ? ?

OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。

SIMPLE 输出REG过程中所用的每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。

ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。

【MODEL语句】

MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。 MODEL语句中常用的选项有:

? ? ? ? ? ?

NOINT 在模型中不拟合常数项。 STB 输出标准化回归系数。 CLI 输出个体预测值

的95%可信区间上下限。

CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值

和残差等。如已选择了CLI、CLM和R,则无需选择P。

【关键字】

REG过程中OUTPUT语句的用法和UNIVARIATE过程中的用法相同,只是会用到另

一些关键字。关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:

43

PREDICTED 因变量预测值(简写为P) RESIDUAL 残差(简写为R)

L95M、U95M 均数95%可信区间上下限 L95、U95 个体预测值95%可信区间上下限 STDP 期望值的标准误 STDR 残差的标准误 STDI 预测值的标准误 STUDENT 学生化残差(即残差与标准误之比) 【PLOT语句】

PLOT语句用于输出变量间的散点图,其用法和GPLOT过程中的PLOT语句非常相似。PLOT语句定义的两变量可为MODEL语句或VAR语句中定义的任何变量。SYMBOL选项可定义散点图中点的标记,如SYMBOL=’*’,则每个点以“*”表示。 8.2.3 结果解释

REG过程的默认输出结果和方差分析输出结果相似,这是因为它们所用的统计模型相同。刚才的例4.1输出结果如下:

Model: MODEL1 第一个模型

Dependent Variable: Y 应变量名为Y

----以下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析---

Analysis of Variance Sum of Mean

Source DF Squares Square F Value Prob>F 变异来源 自由度 离均差平方和 均方 F值 P值 回归变异 Model 1 114.70324 114.70324 43.060 0.0001 误 差 Error 18 47.94816 2.66379 总变异 C Total 19 162.65140

误差的均方根 Root MSE 1.63211 R-square 0.7052 确定系数R2

Dep Mean 10.85000 Adj R-sq 0.6888 调整的R2

Y的变异系数 C.V. 15.04250

--------以下是参数估计及其假设检验结果,采用的是t检验--------

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T| 变量名 自由度 参数估计值 估计值的标准误Sb t值 P值 截距 INTERCEP 1 18.796143 1.26472741 14.862 0.0001 X 1 -0.458520 0.06987466 -6.562 0.0001

如果在MODEL语句中使用CLI、CLM选项,则系统输出因变量均值以及个体预测值的95%可信区间上下限,输出如下:

Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95%

44