多元回归分析论文 下载本文

??Q????i???Q????0?i??i??0,i?1,2,?k

?0??0??0

3.2.2 多元回归方程的多重判定系数

多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。其定义式为:

SSRSSE ?1?SSTSST多重判定系数的注意事项:自变量个数的增加将影响到因变量中被估计的回归方程

R2?所解释的变差数量。当增加自变量时,会使预测误差变得比较小,从而减少了残差平方和SSE。由于回归平方和SSR=SST-SSE,当SSE变小时,SSR就会变大,从而使R2变大。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2也会增大。为避免增加自变量而高估R2,可以使用调整的多重判定系数。

调整的多重判定系数计算式为:

n?1)

n?k?1同时考虑了样本量和模型中自变量的个数的影响,从而调整的多重判定系数永远小

Ra?1?(1?R2)(2于多重判定系数,并且调整的多重判定系数的值不会由于模型中自变量个数的增加而越来越接近1。在多元回归分析中具有更大优势。 3.2.3 多重共线性现象

当回归模型中使用二个或二个以上的自变量时,这些自变量往往会提供多余的信息;即这些自变量之间彼此相关。

多重共线性在回归分析中产生的问题:

首先,变量之间高度相关时,可能会使回归的结果造成混乱,甚至把分析引入歧途。 其次,多重共线性可能对参数估计值的正负号产生影响,当存在多重共线性时,对回归系数的解释将是危险的。

多重共线性的判别:

检测多重共线性最简单的方法是计算模型中各对自变量之间的相关系数,并对各相

关系数进行显著性检验。如果有一个或多个相关系数是显著的,就表示模型中所的自变量之间相关,因而存在着多重共线性问题。

多重共线性的具体表现:

(1)模型各对自变量之间显著相关。

(2)当模型的线性关系检验(F检验)显著时,几乎所有的回归系数?i的t检验却不显著。

(3)回归系数的正负号与预期相反。 多重共线性问题的处理:

(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要在模型中保留所有的自变量,那就要: a.避免t统计量对单个参数?进行检验。

b.对因变量y值得推断(估计或预测)限定在自变量样本值的范围内。

多重共线性问题带来的主要麻烦是对单个回归系数的解释和检验。在求因变量的置信区间和预测区间时一般不会受其影响,但必须保证用于估计或预测的自变量的值是在样本数据的范围之内。因此,如果仅仅是为了估计或预测,则可以将所有的自变量都保留在模型中。 3.3 变量选择

根据多个自变量建立回归模型时,若试图将所有的自变量都引入回归模型将会使 建立的模型不能进行有效的解释。因此,必须在建立模型之前能对所收集到的自变量进行筛选,去掉不必要的自变量,这样才能使模型变得更容易,更具操作性,也更容易解释。

3.3.1 变量的选择过程

在建立回归模型时,总希望用最少的变量来建立模型。在进行回归分析时,每次只增加一个变量,并且将新变量与已经在模型中的变量进行比较,若新变量引入模型后以前的某个变量的t统计量不显著,这个变量就会从模型中被剔除,这样回归分析就很难存在多重共线性的影响,这也是回归过程的搜寻过程。

选择自变量的原则是对统计量进行显著性检验,检验的依据为:将一个或一个以上的自变量引入回归模型中,是否使残差平方和(SSE)有显著减少。如果增加一个自变

量使残差平方和(SSE)的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型。确定在模型中引入自变量xi是否使残差平方和(SSE)有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。 3.3.2 变量选择的方法

变量选择的主要方法有:向前选择、向后剔除、逐步回归 向前选择

向前选择法是从模型中没有自变量开始,然后按照以下步骤选择自变量来拟合模型:

第一步:对k个自变量x1,x2,?xk分别拟合对因变量y的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量xi,并将其首先引入模型。(如果所有模型均无统计上显著性,则运算过程终止,没有模型拟合)

第二步:在已经引入模型的xi的基础上,再分别拟合引入模型外的k?1个自变量

(x1,?,xi?1,xi?1,?,xk)的线性回归模型,即变量组合xi?x1,?xi?xi?1,xi?xi?1,?,xi?xk的

然后再分别考察这k?1个线性模型,挑选出F统计量的值最大的k?1个线性回归模型。

含有二个自变量的模型,并将F统计量的值最大的那个自变量xj引入模型。如果除xi之外的k?1个自变量中没有一个是统计上显著的,则运算过程终止。如此反复进行,直至模型外的自变量均无统计显著性为止。

向后剔除

向后剔除的过程与向前选择法过程相反,具体如下:

第一步:先对因变量拟合包括所有k个自变量的线性回归模型。然后考察p(p?k) 个去掉一个自变量的模型(这些模型中的每一个都有k?1个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。

第二步:考察p?1个再去掉一个自变量的模型(这些模型中的每一个都有k?2个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减少为止。这时,模型中所剩的自变量都是显著的。此过程可以通过F检验的P值来判断。

逐步回归

逐步回归是将向前选择与向后剔除二种方法结合起来筛选自变量的方法。前二步与向前选择法相同。不过在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。逐步回归是向前选择和向后剔除的结合。逐步回归过程就是按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加的变量已经不能导致残差平方和的显著减少,这个过程可以通过F统计量来检验。逐步回归法在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。