应用回归分析结课论文 下载本文

3.回归分析的模型方法介绍和总结

3.1多元线性回归模型

3.1.1多元线性回归模型的一般形式

设随机变量y与一般变量x1,x2,? ,xp的线性回归模型为: y?????1x1??2x2????pxp?? (3.1)

式中,?0,?1,?,?p是p?1个未知参数,?0称为回归常数,?1,?,?p称为回归系数。y称为被解释变量(因变量),x1,x2,?,xp是p个可以精确测量并控制的一般变量。称为解释变量(自变量)。p?1时,式(3.1)为一元线性回归模型;p?2时,我们就称式(3.1)为多元线性回归模型。?是随机误差,与一元线性回归一样,对随机误差项我们常假定

?0 (3.2) ?(?)??2 var(?)称

??y???0??1x1??2x2????pxp (3.3) 为理论回归方程。

对一个实际问题,如果我们获得n组观测数?xi1,xi2,?,xip;yi??i?1,2,?,n?,则线性回归模型式(3.1)可表示为:

y1??0??1x11??2x12????px1p??1

y2??0??1x21??2x22????px2p??2 (3.4) ?

yn??0??1xn1??2xn2????pxnp??n

写成矩阵形式为:

y?X??? (3.5)

X是一个n??p?1?阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中,X的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称X为设计矩阵。

3.1.2多元线性回归模型的基本假定

为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定 (1)解释变量x1,x2,? ,xp是确定性变量,不是随机变量,且要求

rank?X??p?1?n。这里的rank?X??p?1?n,表明设计矩阵X中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X是一满秩矩阵。 (2)随机误差性具有零均值和等方差,即

???i??0

?2,i?j

cov??i,?j?? i,j?1,2,?,n 0,i?j

这个假定通常称为高斯—马尔柯夫条件。???i??0,即假设观测值没有系统误差,随机误差项?i的平均值为零,随机误差项?i的协方差为零,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。 (3)正态分布的假定条件为:

?i~N0,?2

?1,?2,?,?n相互独立

??对于多元线性回归的矩阵模型式(3.5),这个条件便可表示为: ?~N0,?2?n

由上述假定和多元正态分布的性质可知,随机变量y服从n维正态分布,回归模型式(3.5)的期望向量 E?y??X?

??var?y???2?n

因此

y~N(X?,?2?n)

3.2.多元线性回归参数的最小二乘估计

多元线性回归模型未知参数?0,?1,?,?p,的估计与一元线性回归方程的参数估计原理

一样,仍可采用最小二乘估计。对于y?X???,所谓最小二乘法,就是寻找参数?0,

?1,?,?p的估计值,使离差平方和Q(?0,?1,?,?p)极小,即:

4.SAS程序及结果输出

4.1.建立数据集,进行相关分析

程序1

data a;

input year y x1-x6@@; cards; 1985 1986 1987 1988 1989 1990 1991

2004.82 2122.01 2199.35 2357.24

3619.5 9716 4013

675.1 1058.51

3801.4 443.65 4374

471.4 420.9

6534.6 508.7

11194 808.07 1075.07

4675.7 13813 954.65 1093 5865.3 18225 1131.65

5115

1110.26

2664.9 6534.7 22017 1282.98 2937.1 7662.1 23924 1345.01 3149.48

8157

1127.04 1143.33

7074.2 469.91 7250.3 384.74

8245.7 554.72

26625 1564.33 1158.23