第二章 线性回归的基本思想:双变量模型
2.1 复习笔记
一、回归的含义 1.回归分析的概念
回归分析用于研究一个变量(称为被解释变量或应变量)与另一个或多个变量(称为解释变量或自变量)之间的关系,但它并不一定表明存在因果关系;即它并不意味着自变量是因,应变量是果。如果两者之间存在因果关系,则一定建立在某个经济理论基础之上。总之,回归并不意味着存在因果关系,因果关系的判定或推断必须建立在经实践检验的相关理论基础之上。
2.回归分析的目的
(1)根据自变量的取值,估计应变量的均值。 (2)检验(建立在经济理论基础之上的)假设。
(3)根据样本外自变量的取值,预测应变量的均值。 (4)可同时进行上述各项分析。
二、总体回归函数(PRF)
双变量模型的线性总体回归函数如下式所示:
E?YXi??B1?B2Xi (2-1)
在式(2-1)中,EYXi表示与给定X值相对应的Y的均值。下标i代表第i个子总体。B1、B2称为参数,也称为回归系数。B1称为截距,B2称为斜率。斜率系数度量了X每变动一单位,Y(条件)均值的变化率。
三、总体回归函数的统计或随机设定
总体回归函数给出了自变量每个取值相应的应变量的平均值,但对每一个个体,其应变量并不一定等于平均值,而是存在一定的偏差,因此总体回归函数的随机形式如下式所示:
Yi?B1?B2Xi?ui (2-2)
其中,ui表示随机误差项,或简称为误差项。误差项是一个随机变量,其值无法先验确定,通常用概率分布(例如正态分布或t分布)描述随机变量。
式(2-2)称为随机或统计总体回归函数;而式(2-1)称为确定或非随机总体回归函数。后者表示给定X各个Y的平均值。而前者表示由于误差项的存在,个体值在均值附近是如何变动的。
四、随机误差项的性质
1.误差项代表了未纳入模型变量的影响; 2.误差项代表内在随机性; 3.误差项代表了度量误差;
4.误差项代表众多的细小影响因素。
五、样本回归函数
要估计式(2-1)的总体回归函数,只要求出相对每个X的Y的条件均值,然后再把这些均值连接起来,就得到了总体回归线。但是实际中很少能够获得整个总体的数据。通常,仅仅有来自总体的一个样本,因此就需要根据样本信息估计总体回归函数。
样本回归函数形式为:
????b?bX (2-3) Yi12i
?=总体条件均值EYX的估计量;b1?B1的估计量;b2?B2的估计量。 其中,Yii??同理,并非所有的样本数据都准确地落在各个样本回归线上。因此,与建立随机总体回归函数式(2-2)一
样,需要建立随机样本回归函数:
Yi?b1?b2Xi?ei (2-4)
其中,ei是ui的估计量。ei称为残差项,简称残差。从概念上讲,它与ui类似,可作为ui的估计量,SRF中ei的产生原因与PRF中ui的产生原因相同。ei表示了Y的实际值与根据样本回归得到的估计值的差。
? (2-5) ei?Yi?Yi总之,回归分析的主要目的是根据样本回归函数
Yi?b1?b2Xi?ei
估计总体回归函数
Yi?B1?BXi?ui
因为通常的分析是建立在来自某个总体的单个样本上的。但由于抽样的差异性,根据SRF得到的PRF的估计值仅仅是近似值。事实上,无法观察到B1、B2和u。一旦得到某个样本,所能观察到的只是它们的替代量b1、
b2和e。
六、“线性”回归的特殊含义 1.变量线性
变量的线性是指应变量的条件均值是自变量的线性函数,所以下面的函数不是线性的:
E(Y)?B1?B2Xi2 (2-6)
E(Y)?B1?B21 (2-7) Xi因为在式(2-6)中Xi以平方形式出现,而在式(2-7)中Xi以倒数形式出现。对于解释变量线性的回归模型,解释变量的单位变动引起的应变量的变化率为一常数,也就是说,斜率保持不变。但对于解释变量非线性的回归模型,斜率是变化的。
2.参数线性
参数线性是指应变量的条件均值是参数B的线性函数,而变量之间并不一定是线性的。与变量线性函数类似,如果参数B2仅以一次方的形式出现,则称函数为参数线性的。按照这个定义,模型(2-6)和式(2-7)都是线性模型,因为B1、B2以线性形式进入模型,变量X以非线性进入模型则无关紧要。但下面的模型是参数非线性的,因为B2以平方形式出现:
2E(Y)?B1?B2Xi (2-8)
在计量经济学中,线性回归是指参数线性的回归(即参数仅以一次方的形式出现在模型中),而解释变量并
不一定是线性的。
七、从双变量回归到多元线性回归
到目前为止,仅考虑了双变量回归模型,或称简单回归模型。即应变量仅是一个解释变量的函数。通过双变量模型介绍了回归分析的基本思想。很容易将回归的概念推广到应变量是多个解释变量函数的情形。
E(Y)?B1?B2X2i?B3X3i?...?BkXki (2-9)
注:E?Y??EYX2i,X3i,...,Xki
式(2-9)就是多元线性回归的一个例子。回归方程中包含了不止一个的自变量或解释变量。多元回归函数的随机形式(即随机PRF)表示为:
??Yi?B1?B2X2i?B3X3i?...?BkXki?ui
?E?Y??ui (2-10)
由于随机误差项u的存在,个体值不同于组均值。即使在多元回归分析中,也需引入误差项,因为不能把所有影响因素都纳入模型。
式(2-9)和式(2-10)都是参数线性的,因此,它们都是线性回归模型。而进入模型的解释变量不需要是线性的。
八、参数估计:普通最小二乘法 1.普通最小二乘法
虽然有若干不同的方法可获得SRF(即真实PRF的估计量),但在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法。最小二乘原理如下:
对于双变量PRF式(2-2):
Yi?B1?B2Xi?ui
由于不能直接观察PRF,所以用下面的SRF来估计它:
Yi?b1?b2Xi?ei
因而,
ei=实际的Yi-估计的Yi
? ?Yi?Yi?Yi?b1?b2Xi [利用式(2-3)]
上式表明:残差是Y的真实值与估计值之差,而后者可以根据式(2-3)得到。估计PRF最好的方法是,选
b2,择B1、B2的估计量b1、b2,使得残差ei尽可能小。普通最小二乘法就是要选择参数b1、使得残差平方和
最小。
用数学公式表示为:
?eiMin?ei??2?? Yi?Y2?2???Yi?b1?b2Xi? (2-11)
从式(2-11)可以看出,一旦给出Y和X的样本值,RSS就是估计量b1、b2的函数。选择不同的b1、b2,就能够得到不同的残差e,进而得到不同的RSS值。普通最小二乘法选择的是使RSS最小的估计值。
通过求解下面的两个联立方程得到使式(2-11)中RSS最小化的b1、b2值。
?Y?nb?b?Xi12i (2-12)
?YXii?b1?Xi?b2?Xi2 (2-13)
其中,n为样本容量,这些联立方程称为(最小二乘的)正规方程。
在式(2-12)和式(2-13)中,参数b是未知的,变量Y和X的和、平方和、交叉乘积和是已知的。求解联
立方程(运用代数运算),求得b1、b2。
b1?Y?b2X (2-14)
它是总体截距B1的估计量。样本截距就是Y的样本均值减去估计的斜率系数乘以X的样本均值。
b2xy??X?X??Y?Y??XY?nXY? (2-15) ???x??X?nX??X?X?iiiii22i22ii它是总体斜率B2的估计量。注意:
xi?(Xi?X),yi?(Yi?Y)
式(2-14)和式(2-15)给出的估计量称为0LS估计量(OLS estimators),因为它们是通过OLS法得到的。
2.普通最小二乘估计量的一些重要性质
(1)用OLS法得出的样本回归线经过样本均值点,即
Y?b1?b2X (2-16)
(2)残差的均值e??e/n?总为0。可以利用这条性质检验计算是否准确。
i(3)对残差与解释变量的积求和,其值为零;即这两个变量不相关。
?eXii?0 (2-17)
这个性质也可用来检查最小二乘法计算结果。
?(估计的Yi)的积求和,其值为0;即(4)对残差与Yi
?eY?为0。
ii2.2 课后习题详解
一、问 题
1.解释概念
(1)总体回归函数(PRF); (2)样本回归函数(SRF); (3)随机总体回归函数; (4)线性回归模型; (5)随机误差项?ui?; (6)残差项?ei?;
(7)条件期望; (8)非条件期望;
(9)回归系数或回归参数; (10)回归系数的估计量。 答:(1)总体回归函数反映了被解释变量的均值同一个或多个解释变量之间的关系。 (2)样本回归函数是总体回归函数的近似。