《经济计量学精要》笔记和课后习题详解 下载本文

《经济计量学精要》笔记和课后习题详解

第一章 经济计量学的特征及研究范围

1.1 复习笔记

一、什么是经济计量学

经济计量学是利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学。 经济计量学运用数理统计学分析经济数据,对构建于数理经济学基础之上的模型进行实证分析,并得出数值结果。

二、为什么要学习经济计量学

经济计量学涉及经济理论、数理经济学、经济统计学(即经济数据)以及数理统计学。然而,它又是一门有独立研究方向的学科,原因如下:

1.经济理论所提出的命题和假说,多以定性描述为主。但是,经济理论本身却无法定量测度这两个变量之间的强度关系,经济计量学家的任务就是提供这样的数值估计。经济计量学依据观测或试验,对大多数经济理论给出经验解释。

2.数理经济学主要是用数学形式或方程(或模型)描述经济理论,而不考虑对经济理论的测度和经验验证。而经济计量学主要关注的却是对经济理论的经验验证。经济计量学家通常采用数理经济学家提出的数学模型,只不过是把这些模型转换成可以用于经验验证的形式。

3.经济统计学主要涉及经济数据的收集、处理、绘图、制表。经济统计学家的工作是收集GDP、失业、就业、价格等数据,而不是利用这些数据来验证经济理论。但这些数据恰恰是经济计量分析的原始数据。

虽然数理统计学提供了许多分析工具,但由于经济数据独特的性质(大多数经济数据的生成并非可控试验的结果),因此,经济计量学经常需要使用特殊方法。

三、经济计量学方法论 1.建立一个理论假说

首先要了解经济理论对这一问题是怎样阐述的,然后是对这个理论进行验证。 2.收集数据

一般来说,有三类数据可用于实证分析:

(1)时间序列数据:时间序列数据是按时间跨度收集得到的。比如GDP、失业、就业、货币供给、政府赤字等,这些数据是按照规则的时间间隔收集得到的。这些数据可能是定量的,也可能是定性的。

(2)截面数据:截面数据是指一个或多个变量在某一时点上的数据集合。例如美国人口调查局每十年进行的人口普查。

(3)合并数据(时间序列数据与截面数据的组合):合并数据既包括时间序列数据又包括截面数据。例如,20年间10个国家的失业率数据,那么这个数据集就是一个合并数据——每个国家20年间的失业率构成时间序列数据,而10个不同国家每年的失业率又组成截面数据。

(4)面板数据:面板数据是一种特殊类型的合并数据,也称纵向数据或微观面板数据。即同一个横截面单位(比如某个家庭或某个公司)的跨期调查数据。

与自然科学不同,许多收集的经济数据(比如GDP、货币供给、道琼斯指数、汽车销售量等)是非试验性的,也就是说,数据收集机构(比如政府)并不直接监控这些数据。

3.设定劳动力参与率的数学模型

根据变量之间的散点图确定变量之间的数学模型。 4.设定统计或经济计量模型

经济变量之间的关系往往不是数学模型中那么精确的函数关系,还受到其他未知因素的影响,因此需要设定计量模型,将一些未知因素包含在模型中。

5.估计经济计量模型参数

利用所获得的经济数据,通过一定的统计方法估计出模型中未知参数。 6.核查模型的适用性:模型设定检验

建立的计量经济模型是否正确还需要经过一系列的检验,包括变量的显著性检验,方程的整体显著性检验,拟合优度检验以及计量经济学检验。

7.检验源自模型的假设

模型最终确定之后,需要进行假设检验,即验证估计的模型是否有经济意义,以及估计的结果是否与经济理论相符。

8.利用模型进行预测

当模型通过了检验后就可以用所建立的模型进行预测。

1.2 课后习题详解

一、问 题

1.假设地方政府决定在其管辖区内提高居民财产税税率。这对当地房价有何影响?按照章讨论的八个步骤回答这一问题。

答:(1)在其他条件不变的前提下,财产税税率越高,居民住房价格将越低。 (2)假设所使用数据为截面数据,且数据取自财产税税率不同的管辖区。

(3)Yi??1??2Xi,其中Y为居民住房价格,X为财产税税率。 (4)Yi??1??2Xi??i。

(5)得到样本后,可通过最小二乘法估计模型中的回归系数。

(6)除了财产税税率以外,影响居民住房价格的因素还包括抵押贷款利率、房屋面积、购房者家庭收入、经济状况、当地犯罪率高低等。这些因素对于居民住房价格的影响可以在多元回归模型中进行分析。

(7)先验地认为:?2?0,因此可设H0:?1?0 H1:?2?0。

(8)在其他条件保持不变时,估计结果可以用来预测不同财产税税率所对应的居民住房的平均价格。

2.如何理解经济计量学在商业和经济学中的决策作用?

答:计量经济学在商业和经济领域的作用主要是用来估计和预测: (1)价格和成本弹性; (2)生产函数和成本函数;

(3)对于服务和商品的需求函数等。

其中,经济预测的作用已经显得更加明显。

3.假设你是联邦储备委员会主席的经济顾问,若联邦储备委员会主席询问你对增加货币供给以刺激经济有何建议,那么你会考虑哪些因素?你如何运用经济计量学进行分析?

答:如果增加货币供给导致利率下降,那么会促进社会投资的增长,从而使得产出水平和就业水平的增加,进而促进经济增长。如果增加货币供给导致了通货膨胀,则上述结果就不会出现。计量经济学的任务就是通过建立模型来预测货币供给的增加对于通胀、利率和就业水平等因素的影响。

4.为了减少对外国石油供给的依赖,政府正考虑对汽油收取联邦税。假设福特汽车公司雇用你分析税收增加对汽车需求量的影响,你将如何向公司提出建议?

答:事实上,联邦政府在1993年10月1日将汽油税上调了4美分。由于汽油和汽车是互补品,所以在其他条件不变的情况下,汽油税上调所导致的汽油价格上涨不仅会削减对汽油的需求,同时还会削减对汽车的需求。可以建议福特汽车公司生产更加节能的汽车来抵消征税对于汽车销量的影响。汽车的需求函数就可以显示出汽油税对汽车需求量的影响。

5.假设美国总统正考虑对进口钢材征收关税以保护国内钢铁行业的利益。作为总统经济顾问,你的建议是什么?你如何展开经济计量研究以分析征收关税的影响?

答:按照纯经济学的逻辑,应该反对征收关税,因为这样做不仅会提高进口钢材的价格,而且会提高以钢材为原料的其他产品的价格,尤其是汽车的价格。同时提高关税还会保护国内落后的生产力。可以在考察过去政府

所征收的关税额度以及关税征收相关产品需求量的影响之后再建立计量经济学模型。

二、习 题

6.表1-1给出了美国1980~2007年间消费者价格指数(CPI)、标准普尔500股票指数(S&P500)和3月期国债利率的数据。 表1-1 消费者价格指数(CPI,1982~1984年=100),标准普尔综合指数(S&P 500,1941~1943年=100)及3月期国债利率(3-m T bill,%)

年份 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 CPI 82.4 90.9 96.5 99.6 103.9 107.6 109.6 113.6 118.3 124.0 130.7 136.2 140.3 144.5 148.2 152.4 156.9 160.4 163.0 166.6 172.2 177.1 179.9 184.0 188.9 195.3 201.6 207.3 S&P 500 118.78 128.05 119.71 160.41 160.46 186.84 236.34 286.83 265.79 322.84 334.59 376.18 415.74 451.41 460.42 541.72 670.50 873.43 1085.50 1327.33 1427.22 1194.18 993.94 965.23 1130.65 1207.23 1310.46 1477.19 3-m T bill 12.0 14.0 11.0 8.63 9.58 7.48 5.98 5.82 6.69 8.12 7.51 5.42 3.45 3.02 4.29 5.51 5.02 5.07 4.81 4.66 5.85 3.45 1.62 1.03 1.38 3.16 4.73 4.41 资料来源:Economic Report of the President,2008,Tables B-60,B-95,B-96,and B-74,respectively.

(1)以时间为横轴,上述三个变量为纵轴作图。当然,你可以对每个变量分别作图。

(2)你预计CPI与S&P指数之间的关系如何?CPI与3月期国债利率的关系如何?为什么? (3)对每个变量,根据散点图目测其回归线。 答:(1)从下图中可以看出,消费者价格指数(CPI)和标准普尔500指数(S&P 500)大体上都呈现上升趋势,而3月期国债利率(3-m T bill)大体上呈下降趋势。

(2)如果说投资于股票市场是抵御通货膨胀的一种手段,那么S&P 500同CPI之间应为正相关。根据费雪效应理论(Fisher Effect),3月期国债利率应同通货膨胀率正相关,因为通货膨胀率越高,投资者所期待的名义

利率也就越高。但这个问题所涉及的价格变量是CPI,而不是通货膨胀率(通过膨胀率是指CPI的变动百分比),所以比较通货膨胀率同3月期国债利率之间的关系是较为合适的。

(3)数据显示,S&P 500和CPI之间的样本回归线的斜率为正,而3月期国债利率同CPI之间的样本回归线的斜率为负。若用通货膨胀率来代替CPI,通货膨胀率同3月期国债利率之间的样本回归线斜率为正,这同费雪效应理论一致。

7.表1-2给出了英镑与美元之间的汇率数据(1美元兑换多少英镑),以及两个国家1985~2007年间消费者价格指数。

表1-2 英镑对美元的汇率(£/$)及1985~2007年英国和美国消费者价格指数(CPI)

年份 1985 1986 1987 1988 1989 1990 1991 £/$ 1.2974 1.4677 1.6398 1.7813 1.6382 1.7841 1.7674 CPI U.S. 107.6 109.6 113.6 118.3 124.0 130.7 136.2 CPI U.K 111.1 114.9 119.7 125.6 135.4 148.2 156.9

1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 1.7663 1.5016 1.5319 1.5785 1.5607 1.6376 1.6573 1.6172 1.5156 1.4396 1.5025 1.6347 1.8330 1.8204 1.8434 2.0020 140.3 144.5 148.2 152.4 156.9 160.5 163.0 166.6 172.2 177.1 179.9 184.0 188.9 195.3 201.6 207.3 162.7 165.3 169.3 175.2 179.4 185.1 191.4 194.3 200.1 203.6 207.0 213.0 219.4 225.6 232.8 242.7 资料来源:Economic Report of the President £,2008.U.K Pound/$from Table B-110;CPI(1982~1984=100)from Table B-108.

(1)以时间(年)为横轴,以汇率(ER)与两个消费者价格指数为纵轴作图。 (2)求相对价格比率(RPR)(用英国CPI除美国CPI)。 (3)用ER对RPR作图。

(4)目测描绘通过散点图的回归线。 答:(1)如图所示,两个国家的消费者价格指数均随着时间的推移而增长,但汇率与时间之间的关系在不同时期则有所不同,但在1985年广场协议签署之后,G7纷纷有意调低了美元对本国货币的汇率。

(2)、(3)、(4)从下图中可以看出,汇率(ER)(英镑兑美元)同相对价格比率(RPR)之间大致呈现负相关关系。

第二章 线性回归的基本思想:双变量模型

2.1 复习笔记

一、回归的含义 1.回归分析的概念

回归分析用于研究一个变量(称为被解释变量或应变量)与另一个或多个变量(称为解释变量或自变量)之间的关系,但它并不一定表明存在因果关系;即它并不意味着自变量是因,应变量是果。如果两者之间存在因果关系,则一定建立在某个经济理论基础之上。总之,回归并不意味着存在因果关系,因果关系的判定或推断必须建立在经实践检验的相关理论基础之上。

2.回归分析的目的

(1)根据自变量的取值,估计应变量的均值。 (2)检验(建立在经济理论基础之上的)假设。

(3)根据样本外自变量的取值,预测应变量的均值。 (4)可同时进行上述各项分析。

二、总体回归函数(PRF)

双变量模型的线性总体回归函数如下式所示:

E?YXi??B1?B2Xi (2-1)

在式(2-1)中,EYXi表示与给定X值相对应的Y的均值。下标i代表第i个子总体。B1、B2称为参数,也称为回归系数。B1称为截距,B2称为斜率。斜率系数度量了X每变动一单位,Y(条件)均值的变化率。

三、总体回归函数的统计或随机设定

总体回归函数给出了自变量每个取值相应的应变量的平均值,但对每一个个体,其应变量并不一定等于平均值,而是存在一定的偏差,因此总体回归函数的随机形式如下式所示:

Yi?B1?B2Xi?ui (2-2)

其中,ui表示随机误差项,或简称为误差项。误差项是一个随机变量,其值无法先验确定,通常用概率分布(例如正态分布或t分布)描述随机变量。

式(2-2)称为随机或统计总体回归函数;而式(2-1)称为确定或非随机总体回归函数。后者表示给定X各个Y的平均值。而前者表示由于误差项的存在,个体值在均值附近是如何变动的。

四、随机误差项的性质

1.误差项代表了未纳入模型变量的影响; 2.误差项代表内在随机性; 3.误差项代表了度量误差;

4.误差项代表众多的细小影响因素。

五、样本回归函数

要估计式(2-1)的总体回归函数,只要求出相对每个X的Y的条件均值,然后再把这些均值连接起来,就得到了总体回归线。但是实际中很少能够获得整个总体的数据。通常,仅仅有来自总体的一个样本,因此就需要根据样本信息估计总体回归函数。

样本回归函数形式为:

????b?bX (2-3) Yi12i

?=总体条件均值EYX的估计量;b1?B1的估计量;b2?B2的估计量。 其中,Yii??同理,并非所有的样本数据都准确地落在各个样本回归线上。因此,与建立随机总体回归函数式(2-2)一

样,需要建立随机样本回归函数:

Yi?b1?b2Xi?ei (2-4)

其中,ei是ui的估计量。ei称为残差项,简称残差。从概念上讲,它与ui类似,可作为ui的估计量,SRF中ei的产生原因与PRF中ui的产生原因相同。ei表示了Y的实际值与根据样本回归得到的估计值的差。

? (2-5) ei?Yi?Yi总之,回归分析的主要目的是根据样本回归函数

Yi?b1?b2Xi?ei

估计总体回归函数

Yi?B1?BXi?ui

因为通常的分析是建立在来自某个总体的单个样本上的。但由于抽样的差异性,根据SRF得到的PRF的估计值仅仅是近似值。事实上,无法观察到B1、B2和u。一旦得到某个样本,所能观察到的只是它们的替代量b1、

b2和e。

六、“线性”回归的特殊含义 1.变量线性

变量的线性是指应变量的条件均值是自变量的线性函数,所以下面的函数不是线性的:

E(Y)?B1?B2Xi2 (2-6)

E(Y)?B1?B21 (2-7) Xi因为在式(2-6)中Xi以平方形式出现,而在式(2-7)中Xi以倒数形式出现。对于解释变量线性的回归模型,解释变量的单位变动引起的应变量的变化率为一常数,也就是说,斜率保持不变。但对于解释变量非线性的回归模型,斜率是变化的。

2.参数线性

参数线性是指应变量的条件均值是参数B的线性函数,而变量之间并不一定是线性的。与变量线性函数类似,如果参数B2仅以一次方的形式出现,则称函数为参数线性的。按照这个定义,模型(2-6)和式(2-7)都是线性模型,因为B1、B2以线性形式进入模型,变量X以非线性进入模型则无关紧要。但下面的模型是参数非线性的,因为B2以平方形式出现:

2E(Y)?B1?B2Xi (2-8)

在计量经济学中,线性回归是指参数线性的回归(即参数仅以一次方的形式出现在模型中),而解释变量并

不一定是线性的。

七、从双变量回归到多元线性回归

到目前为止,仅考虑了双变量回归模型,或称简单回归模型。即应变量仅是一个解释变量的函数。通过双变量模型介绍了回归分析的基本思想。很容易将回归的概念推广到应变量是多个解释变量函数的情形。

E(Y)?B1?B2X2i?B3X3i?...?BkXki (2-9)

注:E?Y??EYX2i,X3i,...,Xki

式(2-9)就是多元线性回归的一个例子。回归方程中包含了不止一个的自变量或解释变量。多元回归函数的随机形式(即随机PRF)表示为:

??Yi?B1?B2X2i?B3X3i?...?BkXki?ui

?E?Y??ui (2-10)

由于随机误差项u的存在,个体值不同于组均值。即使在多元回归分析中,也需引入误差项,因为不能把所有影响因素都纳入模型。

式(2-9)和式(2-10)都是参数线性的,因此,它们都是线性回归模型。而进入模型的解释变量不需要是线性的。

八、参数估计:普通最小二乘法 1.普通最小二乘法

虽然有若干不同的方法可获得SRF(即真实PRF的估计量),但在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法。最小二乘原理如下:

对于双变量PRF式(2-2):

Yi?B1?B2Xi?ui

由于不能直接观察PRF,所以用下面的SRF来估计它:

Yi?b1?b2Xi?ei

因而,

ei=实际的Yi-估计的Yi

? ?Yi?Yi?Yi?b1?b2Xi [利用式(2-3)]

上式表明:残差是Y的真实值与估计值之差,而后者可以根据式(2-3)得到。估计PRF最好的方法是,选

b2,择B1、B2的估计量b1、b2,使得残差ei尽可能小。普通最小二乘法就是要选择参数b1、使得残差平方和

最小。

用数学公式表示为:

?eiMin?ei??2?? Yi?Y2?2???Yi?b1?b2Xi? (2-11)

从式(2-11)可以看出,一旦给出Y和X的样本值,RSS就是估计量b1、b2的函数。选择不同的b1、b2,就能够得到不同的残差e,进而得到不同的RSS值。普通最小二乘法选择的是使RSS最小的估计值。

通过求解下面的两个联立方程得到使式(2-11)中RSS最小化的b1、b2值。

?Y?nb?b?Xi12i (2-12)

?YXii?b1?Xi?b2?Xi2 (2-13)

其中,n为样本容量,这些联立方程称为(最小二乘的)正规方程。

在式(2-12)和式(2-13)中,参数b是未知的,变量Y和X的和、平方和、交叉乘积和是已知的。求解联

立方程(运用代数运算),求得b1、b2。

b1?Y?b2X (2-14)

它是总体截距B1的估计量。样本截距就是Y的样本均值减去估计的斜率系数乘以X的样本均值。

b2xy??X?X??Y?Y??XY?nXY? (2-15) ???x??X?nX??X?X?iiiii22i22ii它是总体斜率B2的估计量。注意:

xi?(Xi?X),yi?(Yi?Y)

式(2-14)和式(2-15)给出的估计量称为0LS估计量(OLS estimators),因为它们是通过OLS法得到的。

2.普通最小二乘估计量的一些重要性质

(1)用OLS法得出的样本回归线经过样本均值点,即

Y?b1?b2X (2-16)

(2)残差的均值e??e/n?总为0。可以利用这条性质检验计算是否准确。

i(3)对残差与解释变量的积求和,其值为零;即这两个变量不相关。

?eXii?0 (2-17)

这个性质也可用来检查最小二乘法计算结果。

?(估计的Yi)的积求和,其值为0;即(4)对残差与Yi

?eY?为0。

ii2.2 课后习题详解

一、问 题

1.解释概念

(1)总体回归函数(PRF); (2)样本回归函数(SRF); (3)随机总体回归函数; (4)线性回归模型; (5)随机误差项?ui?; (6)残差项?ei?;

(7)条件期望; (8)非条件期望;

(9)回归系数或回归参数; (10)回归系数的估计量。 答:(1)总体回归函数反映了被解释变量的均值同一个或多个解释变量之间的关系。 (2)样本回归函数是总体回归函数的近似。

(3)从总体上表明了单个Y同解释变量和随机干扰项之间的关系。 (4)回归参数为线性?B?的回归模型。

(5)它代表了与被解释变量Y有关但未被纳入模型变量的影响。每一个随机误差项对于Y的影响都是非常小的,且是随机的。随机误差项的均值为零。

(6)它是随机误差项的近似。

(7)它为在解释变量X给定条件下Y的条件期望,可以通过X给定条件下Y的条件(概率)分布得到。 (8)非条件期望是在不考虑其他随机变量取值情况时,某个随机变量的期望值。它可以通过该随机变量的非条件分布或边缘分布得到。

(9)线性回归模型中的B参数称为回归系数或回归参数。

(10)回归系数估计量(bs)说明了如何通过样本数据来计算回归系数(Bs),计算出的回归系数的值称为样本回归估计值。

2.随机总体回归函数与随机样本回归函数有何区别?

答:随机样本回归函数从所抽取样本的角度说明了被解释变量Yi同解释变量Xi及残差ei之间的关系。而总体回归函数则是从总体的角度说明了被解释变量Yi同解释变量Xi及随机误差项ui之间的关系。

3.讨论:“既然不能观察到总体回归函数,为什么还要研究它呢?”

答:就像经济理论中的完全竞争模型一样,总体回归函数也是一个理论化的、理想化的模型,在现实中很难得到。但是这样一个理想化的模型有助于我们把握所研究问题的本质。

4.判断正误并说明理由。

(1)随机误差项ui与残差项ei是一回事。

(2)总体回归函数给出了与自变量每个取值相对应的应变量的值。 (3)线性回归模型意味着模型变量是线性的。

(4)在线性回归模型中,解释变量是因,应变量是果。 (5)随机变量的条件均值与非条件均值是一回事。

(6)式(2-2)中的回归系数B是随机变量,但式(2-4)中的回归系数b是参数。 (7)式(2-1)中的斜率B2度量了X的单位变动引起的Y的倾斜度。

(8)实践中双变量回归模型没有什么用,因为应变量的变化不可能仅由一个解释变量来解释。 答:(1)错误,残差ei是随机误差项ui的一个近似(估计值)。

(2)错误,总体回归函数给出了在解释变量给定条件下被解释变量的条件均值。

(3)错误,线性回归模型是指所建立的模型中的回归系数为线性,而其中的解释变量不要求一定为线性的。 (4)错误,通常情况下,解释变量与被解释变量之间的因果关系是由经济理论决定的,而不是由回归模型决定的。

(5)错误,只有X和Y独立时,E?Y/X?和E?Y?才相等。

(6)错误,b是随机变量,而B是参数。

(7)错误,它度量了X每变动一单位Y的均值的变化量。

(8)不一定,实际上,有很多经济现象可以通过两变量模型来解释,例如在资产组合理论中通常会以某一证券的回报率为被解释变量,以股票市场指数(如S&P500指数)为解释变量进行回归。回归结果中斜率的估计值就是在资产组合理论中得到广泛运用的?系数。

(9)正确。

5.下面两者之间有什么关系?

(1)B1和b1 (2)B2和b2 (3)ui和ei 上述哪些量可以观察得到?如何观察得到? 答:(1)b1是B1的回归估计量。 (2)b2是B2的回归估计量。 (3)ei是ui的估计量。

在现实中,我们无法观测到B1、B2和ui,但是只要得到一组观测数据,就可以通过b1、b2和ei得到它们的估计值。

6.能否把教材式(2-22)改写成X对Y的函数?如何解释变换后的方程? 答:通过简单的代数变换,可得

Xt?2.5?2.5Yt

以实际产出为应变量,失业率为自变量进行回归便可以得到奥肯定律回归系数的估计值。

7.下表列出了若干对自变量与应变量。对每一对变量,它们之间的关系如何?是正的?负的?还是无法确定?也就是说,其斜率是正还是负,或都不是?说明理由。

应变量 (a)GDP (b)个人储蓄 (c)小麦产出 (d)美国国防开支 (e)棒球明星本垒打的次数 自变量 利率 利率 降雨量 苏联国防开支 年薪 应变量 (f)总统声誉 (g)学生第一年GPA分数 (h)学生经济计量学成绩 (i)日本汽车的进口量 自变量 任职时间 S.A.T分数 统计学成绩 美国人均国民收入 答:(a)这取决于高利率水平对构成GDP的各部分(居民消费、投资、政府消费和进出口)的影响。例如,在其他条件不变的前提下,投资同利率之间应是负相关的。

(b)斜率为正,在其他条件不变的情况下,利率水平越高,人们储蓄的欲望越大。 (c)一般情况下,斜率为正。

(d)国际形势不发生重大改变的情况下,斜率为正。 (e)斜率可能为正。

(f)斜率可能为负,民众对总统越熟悉,对总统产生厌恶的可能性越大。 (g)斜率可能为正。

(h)斜率为正,统计学是计量经济学的基础。

(i)斜率为正,当收人增加时,可自由支配的收入也增加,从而导致对较为昂贵汽车的需求上升,而大部分日本汽车都较为昂贵,因此人们对日本汽车的需求会上升。通常情况下,这一类商品的收入弹性为正,且大于1。

二、习 题

8.判别下列模型是否为线性回归模型。

(1)Yi?B1?B2?1/Xi?。 (2)Yi?B1?B2lnXi??i。 (3)lnYi?B1?B2Xi??i。

(4)lnYi?B1?B2lnXi??i。 (5)Yi?B1?B2B3Xi??i。

3(6)Yi?B1?B2Xi??i。

注:自然对数表示以e为底的常用对数。 答:(1)是;(2)是;(3)是;(4)是;(5)不是;(6)不是。

9.表2-1给出了每周家庭的消费支出Y(美元)与每周家庭收入X(美元)的数据。

表2-1 每周消费支出与每周收入的假想数据 每周收入(美元)(X) 80 100 120 140 160 每周消费支出(美元)(Y) 每周收入 (美元)(X) 180 200 220 240 260 每周消费支出(美元)(X) 110,115,120,130,135,140 120,136,140,144,145 135,137,140,152,157,160,162 137,145,155,165,175,189 150,152,175,178,180,185,191 55,60,65,70,75 65,70,74,80,85,88 79,84,90,94,98 80,93,95,103,108,113,115 102,107,110,116,118,125 (1)对每一收入水平,计算平均的消费支出E(Y|Xi),即条件期望值。 (2)以收入为横轴,消费支出为纵轴作散点图。 (3)在该散点图上,做出(1)中的条件均值点。

(4)你认为X与Y之间,X与Y的均值之间的关系如何? (5)写出总体回归函数及样本回归函数。 (6)总体回归函数是线性的还是非线性的? 答:(1)条件期望如下表:

(2)、(3)略。

(4)Y的均值随X的增加而增加,但Y的个别观测值不一定随X的增加而增加。 (5)PRF:Yi?B1?B2Xi?ui,SRF:Yi?b1?b2Xi?ei。 (6)从散点图可知总体回归函数是线性的。

10.根据上题中给出的数据,对每个X,随机抽取一个Y,结果如下: 70 65 90 95 Y 100 120 140 X 80 (1)以Y为纵轴,X为横轴作图。 (2)Y与X之间是怎样的关系? (3)求样本回归函数?写出计算步骤。 (4)在同一个图中,做出SRF和PRF。 (5)SRF与PRF相同吗?为什么?

110 160 115 180 120 200 140 220 155 240 150 260

答:(1)略。

(2)两者之间呈正相关关系。

??24.4545?0.5091X。 (3)SRF:Yii从原始数据可知:

?Yi?1110,?Xi?1700,?xi?33000,?xiyi?16800,其中小写字母代表相应变

2量的离差。

(4)略。

(5)两者非常接近,但很明显两者并不相同。

11.假定有如下的回归结果:

??2.6911?0.4795X Ytt其中,Y是美国的咖啡消费量(每天每人消费的杯数),X是咖啡的零售价格(美元/磅),t是时间。

(1)这是一个时间序列回归还是截面序列回归? (2)画出回归线。

(3)如何解释截距?它有经济含义吗? (4)如何解释斜率?

(5)能否求出真实的总体回归函数?

(6)需求的价格弹性定义为:价格每变动百分之一引起的需求量变动的百分比,用数学形式表示为:

X) Y即弹性等于斜率乘以X与Y比值的乘积,其中X表示价格,Y表示需求量。根据上述回归结果,能否求出

弹性=斜率?(咖啡需求的价格弹性?如果不能,计算此弹性还需要其他什么信息?

答:(1)从变量下标t可知,该回归更像是时间序列回归。 (2)回归线是一条向下倾斜的直线。

(3)当咖啡价格为零时,每人每天的平均咖啡消费量。该估计结果是否具有经济学意义,要具体情况具体分析。

(4)在其他条件保持不变的情况下,咖啡价格每磅上升1美元,每人每日平均咖啡消费量约减少0.5杯。 (5)不能。但运用第3章将要介绍的有关置信区间的知识,我们可以从概率的角度来考查真实的总体回归函数。

(6)题目中只告知斜率的值,没有告知X和Y具体的值,因此基于当前仅有的信息无法计算出价格弹性。

12.表2-2给出了消费者价格指数(CPI)(1982~1984年=100)及标准普尔500指数(S&P)(基准指数:1941~1943年=10)。

表2-2 美国1978~1989年消费者价格指数(CPI)和S&P 500指数

年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 CPI 65.2 72.6 82.4 90.9 96.5 99.6 103.9 107.6 109.6 113.6 118.3 124.0 S&P 96.02 103.01 118.78 128.05 119.71 160.41 160.46 186.84 236.34 286.83 265.79 322.84

资料来源:Economic Report of the President,1990,Table C-58, for CPI and TableC-93 for the S&P index. (1)以CPI为横轴,S&P 500指数为纵轴作图。 (2)CPI与S&P 500指数之间关系如何? (3)考虑下面的回归模型:

???B?BCPI?u ?S&Pt12tt根据表中的数据,运用普通最小二乘法估计上述方程并解释回归结果。 (4)(3)中的回归结果有经济意义吗?

(5)你知道为什么1988年S&P 500指数下降了吗? 答:(1)、(2)散点图显示CPI同S&P 500之间存在正相关的关系。

?(3)S&P????195.5149?3.8264CPI。

tt回归结果表明,CPI每上升一单位,S&P平均上涨3.8点。截距项意味着,当CPI为零时,S&P的均值为-195点。

(4)正的斜率是有经济学意义的,但负的截距项则没有经济学意义。 (5)这可能是因为1987年10月的股灾。

13.表2-3给出了1988年9个工业国家的名义利率(X)与通货膨胀(Y)的数据。

表2-3 1988年9个工业国家的名义利率(X)与通货膨胀(Y) 国家 Y(%) X(%) 国家 Y(%) X(%) 澳大利亚 11.9 7.7 加拿大 9.4 4.0 法国 7.5 3.1 德国 4.0 1.6 意大利 11.3 4.8 墨西哥 66.3 51.7 瑞典 2.2 2.0 英国 10.3 6.8 美国 7.6 4.4 资料来源:Rudiger Dornbusch and Stanley Fischer,Macroeconomics,5th ed.,McGraw-Hill,New York,1990, P.652.The original data arc from various issues of the International Financial Statistics,published by the International Monetary Fund(IMF).

(1)以利率为纵轴,通货膨胀率为横轴作图。 (2)用OLS法进行回归分析,写出求解步骤。

(3)如果实际利率不变,则名义利率与通胀率的关系如何?即在Y对X的回归中,斜率和截距如何?回归结果与预期一致吗?对名义利率与通胀率及实际利率之间关系的讨论可参见有关的宏观经济学教材,还可查阅以美国著名经济学家费舍尔(Irving Fisher)命名的费舍尔方程。

答:(1)散点图显示名义利率同通货膨胀率之间存在正相关关系,这符合传统的经济学理论(费雪效应)。应该注意到散点图中有一组极端的观测值,我们称之为异常值.该异常值取自墨西哥。

(2)Yi?2.7131?1.2320Xi。

(3)斜率的估计值应为1,因为根据费雪方程,存在下列关系:

名义利率=预期实际利率+预期通货膨胀率

所以,费雪方程中的截距项应为预期实际利率。但在当前这个例子中,我们无法验证费雪方程是否正确,因为我们所利用的是实际通货膨胀率,而不是预期通货膨胀率。从估计结果看,当实际通货膨胀率上涨1%时,名义利率的平均涨幅超过1%,因为斜率的估计值为1.2320。运用第3章将要介绍的知识可知,该斜率系数在统计意义上显著大于1。

14.实际汇率(RE)定义为名义汇率(NE)与本国价格与外国价格之比的乘积。因而,美国对德国的实际汇率为:

(1)利用习题1.7中表1-2给出的数据,计算RE美国。

(2)利用你熟悉的回归分析软件,对下面的回归模型进行估计。

(3)先验地,你预期名义汇率与真实汇率的关系如何?你可以从有关国际贸易和宏观经济学教材中查阅购买力平价理论。

(4)回归的结果验证了你的先验预期吗?如果没有,可能的原因是什么呢? (5)估计如下形式的回归方程:

其中,ln表示自然对数,即以e为底的常用对数。解释回归结果。式(1)的回归结果和式(2)的回归结果相同吗?

答:(1)略。

(2)NEUS?0.0088?1.1274REUS。 (3)正相关。 (4)是的。

(5)lnNEUS?0.1233?1.0034lnREUS。

的确,从回归系数的数值来看,两个回归结果大致相同。但是双对数模型中的斜率系数代表的是弹性,而线性模型中的斜率系数代表的是边际,即REUS每变动一单位,NEUS的平均值变动几个单位。对于这方面的具体讨论见第5章。

15.参考题12。表2-4给出了美国1990~2007年CPI指数与S&P 500指数的数据。

表2-4 美国1990~2007年GPI指数与S&P 500指数数据

年份 CPI S&P 1990 130.7 334.59 1991 136.2 376.18 1992 140.3 415.74 1993 144.5 451.41 1994 148.2 460.42 1995 152.4 541.72 1996 156.9 670.50 1997 160.5 873.43 1998 163.0 1085.50 年份 CPI S&P 1999 166.6 1327.33 2000 172.2 1427.22 2001 177.1 1194.18 2002 179.9 993.94 2003 184.0 965.23 2004 188.9 1130.65 2005 195.3 1207.23 2006 201.6 1310.46 2007 207.3 1477.19 资料来源:Economic Report of the President.2008. (1)重复习题12(1)至(5)的各个问题。 (2)估计的回归模型有什么不同?

(3)现将两组数据联合起来,估计S&P 500指数对CPI的回归。 (4)三个回归模型存在显著差异吗? 答:(1)①(1)至(5)散点图略。 ②两者之间呈正相关关系。

③用1990~2007年的样本进行回归,结果为:

????1611.5024?15.0550CPI ?S&Ptt④正斜率具有经济学意义,而负的截距项没有经济学意义。 ⑤此时,1988年的数据已不在样本期。

(2)虽然两个样本期回归的回归系数相差是比较大的,但是回归结果还都是符合先验预期的。 (3)联合两组数据后的回归结果如下:

????906.8409?10.8914CPI ?S&Ptt(4)因为两个子样本期的回归结果不同(可以通过虚拟变量(将在第6章介绍)或Chow检验来验证),所以上题中基于联合数据的回归是没有意义的。

16.表2-12(参见网上教材)给出了美国47所知名商业学校2007~2008年基本年薪(ASP)、GPA分数(从1到4共四个等级)、GMAT分数、每年学费、毕业生就业率、入学评价得分(5.0最高),研究生申请接受率等数据。注:西北大学排名第4,但是由于缺乏研究生申请接受率数据,因此在给出的数据中不包括该大学。

(1)用双变量回归模型分析GPA是否对ASP有影响?

(2)用合适的回归模型分析GMAT分数是否与ASP有关系?

(3)每年学费与ASP有关吗?你是如何知道的?如果两变量之间正相关,是否意味着到最贵的学校上学是值得的。

(4)入学等级与ASP有关吗? 答:(1)ASP??88220.4947?55227.4336GPA,这表明GPA可能对ASP存在正向影响。 (2)ASP??241386.602?551.721GMAT,这表明GMAT可能对ASP存在正向影响。 (3)ASP?42878.332?1.635TUITION,这表明学费可能对ASP存在正向影响。 顶级的商学院大都拥有优质的师资力量,同时也需要为优质的师资力量付出较高的工资成本。从这个角度看,高额的学费就意味着较高的教育质量,从而使得这些商学院的毕业生的薪水处在较高水平。

(4)ASP??29943.604?37300.297RECRUITER,这表示ASP同入学等级之间存在正向相关关系。

17.表2-13(参见网上教材)给出了美国1960~2006年实际GDP(Y)与城市失业率(X)的数据。 (1)估计形如教材式(2-22)的奥肯定律。回归结果与教材式(2-22)类似吗?这是否表明奥肯定律广泛有效?

(2)做实际GDP变化率对城市失业率变化率的回归,并解释回归结果。

(3)如果失业率保持不变,预期实际GDP增长率是多少?如何解释这个增长率?

答:(1)教材式(6-22)给出了奥肯定律的数学表达形式,表2-13(参见网上教材)给出了实际GDP?RGDP?和失业率(UNRATE)的具体数据,可以通过以下表达式来计算失业率变动程度(CHUNRATE)和实际GDP增长率(PCTCRGDP):

CHUNRATE=UNRATE-UNRATE(-1)PCTCRGDP=??RGDP/RGDP?-1????100?100

注意:UNRATE(?1)的意思是:用失业率的本期值减去失业率上一期的值。以失业率的前两期数据为例,

UNRATE-UNRATE(?1)?6.755,之后依次类推。同样地,RGDP/RGDP??1?是用实际GDP的本期值除

以其上一期的值。

回归结果如下:

?CHUNRATE?1.2334?0.3734PCTCRGDP

可见斜率的估计值同之前的估计值大致相同。化简式(2-22)可知,

CHUNRATE?1.00?0.40PCTCRGDP

可见两者截距项的估计值也大致相同。这或许表明奥肯定律具有较为广泛的应用性。

(2)交换CHUNRATE和PCTCRGDP的位置,即将PCTCRGDP作为被解释变量,而把CHUNRATE作为解释变量,有:

?PCTCRGDP?3.3191?1.8630CHUNRATE

可见失业率变动同实际GDP增长率呈反向变动关系,CHUNRATE每变动一单位,PCTCRGDP将变动

约1.86个百分点。

(3)当上述回归模型中的CHUNRATE为零时,实际GDP增长率大约为3.3%,可以将其看成实际GDP

的自然增长率。在最初奥肯所建立的模型中,实际GDP的自然增长率为2.5%。可见,随着时间的推移,实际GDP的自然增长率有所增长。

18.参考习题3,数据见表2-6(参见网上教材)。

(1)利用统计软件,验证教材式(2-24)和教材式(2-25)的回归结果。

?)e(2)对于每个回归,求Y的估计值(Yi,并与样本实际Y值进行比较。求残差值i,根据残差值能否说

明教材模型(2-24)和教材模型(2-25)哪个更好?

答:(1)略。对于误差的近似可能会导致回归结果之间的微小差异。 (2)对于模型(2-24)输出结果如下:

模型(2-25)的输出结果如下:

可见,两个模型的残差图十分相似。对于模型的选择,将会涉及模型选择标准等方面的知识,而这些知识将会在第7章中介绍。

19.参考习题5。表2-5给出了基本数据。

(1)用钟表价格对钟表年代和投标人数作图。散点图表明教材线性回归模型(2-27),和教材式(2-28)是否适合?

(2)用投标人数对钟表年代作图是否有意义?散点图说明了什么?

表2-5 拍卖数据(钟表价格、钟表年代和投标人数)

观察值 价格 年代 投标人数 1 1235 127 13 2 1080 115 12 3 845 127 7 4 1552 150 9 5 1047 156 6 6 1979 182 11 7 1822 156 12 8 1253 132 10 9 1297 137 9 10 946 113 9 11 1713 137 15 12 1024 117 11 13 2131 170 14 14 1550 182 8 15 1884 162 11 16 2041 184 10 答:(1)图形如下:

观察值 价格 年代 投标人数 17 854 143 6 18 1483 159 9 19 1055 108 14 20 1545 175 8 21 729 108 6 22 1792 179 9 23 1175 111 15 24 1593 187 8 25 1147 137 8 26 1092 153 6 27 1152 117 13 28 1336 126 10 29 785 111 7 30 744 115 7 31 1356 194 5 32 1262 168 7

从图中可知,投标人越多,古董钟的价格会越高,这或许是古董钟拍卖市场的规律。初次估计时,可以用线性模型来拟合价格和年限之间的关系,但同样用线性模型来拟合价格和投标人数的关系就显得过于粗略了。

(2)投标者人数同年限的散点图如下图所示:

散点图显示,钟表年限同投标者人数大致呈负相关关系,但这种关系并不明显。这可能是因为钟表的年限越高,价格越高,而有能力参与投标的人也就越少。

20.参考本章讨论的数学S.A.T分数一例。教材表2-4给出了计算OLS估计量必需的原始数据。观察Y(实

?(估计值)并作图。散点图说明了什么?如果认为拟合的模型(教材方程(2-20))是“好的”模型,际值)和Y散点图的形状应该是怎样的?下一章将讨论“好的”模型看起来是什么样子。

?的散点图如下。 答:被解释变量的实际值Y(数据见教材表2-4)和拟合值Y

如果模型拟合得好,被解释变量的实际值和拟合值则较为接近。如果模型是完美拟合的,则上述散点图应是一条直线。

21.表2-15(参见网上教材)给出了1972~2007年男、女生S.A.T词汇和数学分数。

(1)假设想要根据男生的词汇分数(X)预测其数学分数(Y),建立合适的线性回归模型并估计参数。 (2)解释回归结果。

(3)颠倒一下Y和X的角色,做词汇分数对数学分数的回归,解释回归结果。

(4)令a2为数学对词汇分数回归中的斜率系数,b2为词汇对数学分数回归中的斜率系数。把这两个系数相乘,并与两个回归方程的r值进行比较。得出什么样的结论?

答:(1)Male Math=511.607+0.0259MaleCR。

(2)该回归结果表明,男生的词汇(critical reading score)每上升一单位,男生的数学成绩平均上升0.0259个单位。

(3)Male CR=499.734+0.0196Male Math。

该回归结果表明,男生的数学成绩每上升一单位。其词汇得分平均上升0.0196个单位。 (4)将上述两个回归模型的斜率估计值相乘,可得0.0259×00196=0.0005。

在第3章我们将会介绍r,其衡量了回归线对数据的拟合程度。上述两个模型的r均是0.0005,即两个回归模型斜率估计值的乘积。值得注意的一点是,在二元回归模型中,无论是Y对X回归还是X对Y回归,r值均相同。

22.表2-16(参见网上教材)给出了不同国家1960~1974年间投资率和储蓄率的数据,两个指标都是用其占GDP的比重来度量。

(1)以投资率为纵轴,储蓄率为横轴作图。

2222

(2)通过上图,观察出一条合适的曲线。 (3)估计下面的模型:

ipergdpi?B1?B2spergdpi?ui

(4)解释回归系数。

(5)从分析中你能得出什么结论? 答:略。

三、选作题 23.证明:证明:

?e?0,从而证明:e?0。

i?e???Y?b?bX??nY???Y?bX??b?X?bii12i22i1?Y?b2X?

?nY?nY?b2nX?b2nX?0

24.证明:证明:

?exii?0。

?eiXi???Yi?b1?b2Xi?Xi??YiXi?b1?Xi?b2?Xi?0

25.证明:证明:

2?eY??0,即对残差e与Y估计值之积求和为零。

iiii???e?b?bX??b?e?b?eX?eYiii12i1i2ii?0

?,即Y的实际均值与Y估计值的均值相同。 26.证明:Y?Y??e,两边同时对i求和,可得: 证明:因为有Yi?Yii???e

?Y??Yiii两边同时除以n可得:

?Y/n??Y?/n??e/n

iii因为上式的最后一项等于0,因此得证。

27.证明:证明:

?xy??xY??Xyiiiiiiiiii,其中,xi?(Xi?X),yi?(Yi?Y)。

iiii?xy??x?Y?Y???xY?Y?x??xY,因为Y为常数且?x???Xii?X?0,本

?问题中的另一个表达式也可以通过类似的方法来推导。

28.证明:证明:

i?x??y?0,其中,x?(Xiiiii?X),yi?(Yi?Y)。

?x???X?X??Xi?nX?nX?nX?0,第一个等号是因为X常数,第二个等号是因为

?X??Xi/n。

相似的推导过程

?y同样适用。牢记一个随机变量的离差平方和为零是十分有益的。

i

29.利用数学S.A.T分数一例的数据验证习题22(保留舍入误差)。 答:该问题的证明过程比较简单,保存舍入误差。

第三章 双变量模型:假设检验

3.1 复习笔记

一、古典线性回归模型

古典线性回归模型假定如下:

假定1:回归模型是参数线性的,但不一定是变量线性的。回归模型形式如下:

Yi?B1?B2Xi?ui

这个模型可以扩展到多个解释变量的情形。

假定2:解释变量X与扰动误差项u不相关。但是,如果X是非随机的(即为固定值),则该假定自动满足。即使X值是随机的,如果样本容量足够大,也不会对分析产生严重影响。

假定3:给定X,扰动项的期望或均值为零。即

E(u|Xi)?0 (3-1)

假定4:ui的方差为常数,或同方差,即

var(ui)??2 (3-2)

假定5:无自相关假定,即两个误差项之间不相关。

cov(ui,uj)?0 i?j (3-3)

无自相关假定表明误差ui是随机的。由于假定任何两个误差项不相关,所以任何两个Y值也是不相关的,即cov(Yi,Yj)?0。由于Yi?B1?B2Xi?ui,则给定B值和X值,Y随u的变化而变化。因此,如果u是不相关的,则Y也是不相关的。

假定6:回归模型是正确设定的。换句话说,实证分析的模型不存在设定偏差或设定误差。 这一假定表明,模型中包括了所有影响变量。

二、普通最小二乘估计量的方差与标准误

有了上述这些假定就能够估计出OLS估计量的方差和标准误。由此可知,教材式(2-16)和教材式(2-17)给出的OLS估计量是随机变量,因为其值随样本的不同而变化。这种抽样变异性通常由估计量的方差或其标准误(方差的平方根)来度量。教材式(2-16)和式(2-17)中OLS估计量的方差及标准误是:

var?b1???b12?X?n?x22? (3-4) 2iise(b1)?var(b1) (3-5) var(b2)=??2b2?2?x2i (3-6)

(3-7) se(b2)=var(b2)其中,var表示方差,se表示标准误,?2是扰动项ui的方差。根据同方差假定,每一个ui具有相同的方差

?2。

一旦知道了?2,就很容易计算等式右边的项,从而求得OLS估计量的方差和标准误。根据下式估计?2:

?2??2是?2的估计量,其中,?e??2in?2 (3-8)

22?(Y?Y)是残差平方和,即的真实值与估计值差的平方和,eY?ii。 ?in?2称为自由度,可以简单地看做是独立观察值的个数。

一旦计算出ei,就很容易求得

?e2i,顺便指出,

????2 (3-9) ??(??2的正平方根)称为回归标准误,即Y值偏离估计回归线的标准差。回归的标准误常用于度量估计回??值越小,Y的实际值越接近根据回归模型得到的估计值。 归线的拟合优度。?

三、OLS估计量的性质 1.OLS估计量的性质

如果满足古典线性回归模型的基本假定,则在所有线性估计量中,OLS估计量具有最小方差性,即OLS估计是最优线性无偏估计量(BLUE)。

OLS估计量具有如下性质:

(1)b1和b2是线性估计量,即它们是随机变量Y的线性函数。

(2)b1和b2是无偏估计量;即E?b1??B1,E?b2??B2。因此,平均而言,b1和b2与其真实值B1和B2一致。

?2??2;即误差方差的OLS估计量是无偏的。平均而言,误差方差的估计值收敛于其真实值。 (3)E?(4)b1和b2是有效估计量。即var?b1?小于B1的任意一个线性无偏估计量的方差,var?b2?小于B2的任意一个线性无偏估计量的方差。因此,与其他能够得到真实参数无偏估计量的方法相比,OLS法更准确地估计了B1和B2。

由此可见,OLS估计量具有许多理想的统计性质。正因为如此,在回归分析中,OLS才会得到广泛应用。 2.蒙特卡洛试验

OLS估计量理论上是无偏的,可以通过蒙特卡洛试验验证。假定有如下信息:

??Yi?B1?B2Xi?ui ???????1.5?2.0Xi?ui

(0,4)其中,ui~N。即已知真实的截距和斜率系数分别为1.5和2.0,随机误差服从均值为0,方差为4

的正态分布。现假定X有10个给定值:1,2,3,4,5,6,7,8,9,10。

利用这些信息,可进行如下分析。利用统计软件,从N?0,4?正态分布中生成10个ui值。根据给定的B1和

B2,以及10个X值和生成的10个ui值,利用上面的方程可以得到10个Y值,记为试验或样本1。再根据正

态分布表,生成另外10个ui值,得到另外10个Y值,记为样本2。按此方式,得到21个样本。

?2。因此,可得到21个不同的b1、b2和??2。 对每个样本进行回归,得到b1、b2以及?

?2分别为1.4526、1.9665和4.4743,而相应的真实值分别为1.5、2.0和4。 计算出平均的b1、b2和?从这个试验可以得出:如果反复运用最小二乘法,则平均地看,估计值将等于(总体参数)真实值。即OLS

估计量是无偏的。如果增加抽样实验的次数,则会得到更接近于真实值的估计值。

四、OLS估计量的抽样分布或概率分布

为了推导OLS估计量b1和b2的抽样分布,需要在CLMR基本假定上再增加一条假定。

假定7:在总体回归函数Yi?B1?B2Xi?ui中,误差项ui服从均值为0,方差为B2的正态分布。即

ui~N(0,?2) (3-10)

1.中心极限定理

中心极限定理:随着变量个数的无限增加,独立同分布随机变量之和近似服从正态分布。

因为误差项ui代表了未纳入回归模型的其他所有因素的影响。因为在这些影响因素中,每种因素对Y的影响都很微弱。如果所有这些影响因素都是随机的,用u代表所有这些影响因素之和,那么根据中心极限定理,可以假定误差项服从正态分布。之前已经假定了ui的均值为0,方差为?2(满足同方差性假定),因此得到式(3-10)。

2.参数b1和b2的分布

因为Yi和ui具有相同的分布,而b1和b2都是关于Yi的线性函数,由正态分布的性质可知,b1和b2也是服从如下的正态分布的,

b1~NB1,?b2

1b2五、假设检验

22b2??~N?B,??

在双变量回归模型Yi?B1?B2Xi?ui中,为了检验X对Y是否真的有影响,就需要检验回归系数B2是否为零,因此就需要建立原假设H0:B2?0。如果零假设为真,就没有必要把X纳入模型了。因此,如果X确实属于模型,则拒绝零假设H0,接受备择假设H1,比如说B2?0,即斜率系数不为零,可正可负。

根据式(3-19),b2服从均值为B2,方差为?参数进行假设检验。

1.检验H0:B2?0,H1:B2?0置信区间法

由于b2服从正态分布,则变量Z服从标准正态分布,即

2?x2i的正态分布。那么,可以选择两种方法对B2和B1的

Z?b2?B2b2?B2?~N?0,1? (3-11)

2se?b2??/?xi?给定显著性水平?,可以构造B2的?1???的置信区间?b2?z?/2?????,如果在零,b2?z?/2??xi2?xi2????

假设B2?0条件下,0落入这个区间,那么就不拒绝原假设H0:B2?0;如果0不落在这个区间,就拒绝原假设,认为X对Y有影响。

?代替式(3-11)中的?,?2来估计它。但是真实的?2一般式未知的,因此需要根据式(3-8)给出的?如果用?则式(3-11)的右边服从自由度为?n?2?的t分布,而不是标准正态分布,此时B2的置信区间为

??b2?t?/2?????。 ,b2?t?/?222??xi?xi???注:B2的?1???的置信区间并不是说这个区间包含真实参数B2的概率为?1???,因为B2要么落在这个区间要么不落在这个区间,概率为1或者0,?1???的置信区间是说不断抽取样本建立置信区间,在众多的置信区间里,有?1???的区间包含了真实参数B2。

2.假设检验的显著性检验法

这种假设检验方法涉及两个重要概念检验统计量和零假设下检验统计量的抽样分布。其核心思想是根据从样

?2代替,因此 本数据求得的检验统计量的值决定接受或拒绝零假设。在真实的?2未知的情况下,用?t?服从自由度为?n?2?的t分布。如果令

b2?B2

se?b2?*H0:B2?B2

其中,B2是B2的某个给定数值(例如,B2=0),则根据样本数据很容易求得

**b2?B2? t?se?b2?即t统计量等于上式右边各项都是已知的,因此,可用计算出的t值作为检验统计量,它服从自由度为?n?2?的t分布。在给定的显著性水平下,查t分布表得到临界值t?/2,如果t?t?/2,则拒绝原假设,否则不拒绝。

在具体进行t检验时,需要知道:

(1)对于双变量模型,自由度为?n?2?,对于k个解释变量的回归模型,自由度为?n?k?1?; (2)在经验分析中,常用的显著水平?有1%、5%或10%。为了避免选择显著水平的随意性,通常求出P值,如果计算的P值充分小,则拒绝零假设;

(3)可用单边或双边检验(参见表D-2及图D-7)。

六、拟合回归直线的优度:判定系数r

根据t检验,估计的斜率和截距都是统计显著的,这说明样本回归函数很好地拟合了样本数据。当然,并非

2?都为0;为了判断估计的回归线拟合真实Y每一个Y值都准确地落在了估计的PRF上,即并非所有的ei?Yi?Yi

值的优劣程度,需要计算判定系数,用符号r2表示。

1.总平方和的分解 因为,

??e Yi?Yii把上式恒等变化,得:

?Y?Y???Y??Y???Y?Y??

iiii?Y?Y?为Y的变异,?Y??Y?为由X的变异所解释的部分,?Y?Y??为未解释部分或残差的变异。

iiiii用小写字母表示均值的离差,得

?i?ei yi?y?,即真实Y的均值等于估计Y的均值,因此e?0,或写为 由于Y?Yyi?b2xi?ei

?i?b2xi。(注:y)

对上式两边同时平方再求和,经过简单数学变换,得

?y或等价地,

2i?i??ei ??y2222?yi?b22?xi??ei (3-12)

各种平方和定义如下:

2?y??y2i2=总平方和?TSS?,真实Y值围绕其均值Y的总变异。

i??Y)的变异,也称为回归平方和(由解释变量解=解释平方和?ESS?,估计的Y值围绕其均值(Y释的部分)。

?e2i=残差平方和?RSS?,即Y变异未被解释的部分。

则式(3-12)可简化为

TSS=ESS+RSS (3-13)

式(3-13)表明,Y值与其均值的总离差可以分解为两部分:一部分归于回归线,另一部分归于随机因素,因为并不是所有的真实观察值Y都落在拟合直线上,参见下图。

2.判定系数r2

如果选择的SRF很好地拟合了样本数据,则ESS远大于RSS。如果所有真实的Y值都落在拟合的SRF上,则ESS等于TSS,RSS为0;另一方面,如果SRF拟合得不好,则RSS远大于ESS。如果X不能解释Y的变异,则ESS为0,而RSS等于TSS。当然,这是极端情形。一般的情形是:ESS和RSS均不为零,如果ESS远大于RSS,则SRF在很大程度上解释了Y的变异;如果RSS远大于ESS,则SRF只能部分解释Y的变异。把式(3-13)的两边同除以TSS,得

1=定义,

ESSRSS (3-14) +TSSTSSESS (3-15) TSSr2=称r2为(样本)判定系数,通常用来度量回归线的拟合优度。用文字表述为,判定系数度量了回归模型对Y变异的解释比例(或百分比)。

r2有两个重要性质:

(1)非负性,因为ESS与RSS都是平方和,都是非负的;

(2)0?r2?1,因为部分?ESS?不可能大于整体?TSS?。若r?1,则表示“完全拟合”,即线性模型完全

2解释Y的变异。若r2?0,则表示Y与X之间无任何关系。

3.r2的计算公式

根据式(3-15),式(3-14)可改写为

RSS2?ei1?r??r? 2TSS?yi22因此,

r24.判定系数r与相关系数r

2e??1??y22ii

样本相关系数r度量了两个变量X与Y之间的线性相关程度,r可写为:

r???Xi?????xy?X?X??Y?Y??x?yi?XYi?Y2iii222

ii相关系数也能够通过判定系数r计算得到

2r??r2 即在双变量回归模型中,相关系数的平方等于判定系数。

七、回归分析结果的报告

回归分析结果的报告有多种形式。在没有使用统计软件之前,回归结果的报告通常采用下面的形式:

??B?BXYi12ise?????t?????p?????r2???df???

第一行括号内的数值表示估计回归系数的标准误,第二行括号内的数值表示在零假设下(每个回归系数的真实值为零)估计的t值(即估计的系数与其标准误之比),第三行括号内的数值表示获得t值的p值。一般情况下,如果没有设定特殊的零假设,习惯地规定零假设为:总体参数为零。如果拒绝零假设(即检验统计量是显著的),则表示真实的总体参数值不为零。

用上述形式报告回归结果的一个优点是,可以一目了然地看到每个估计系数是否是统计显著的,即是否显著不为零。通过列出的p值能够确定t值的精确显著水平。

注:当判定拒绝或不拒绝零假设时,需要预先确定一个可以接受的p值水平(即临界p值),然后把计算的p值与临界p值进行比较。如果计算的p值小于临界p值,则拒绝原假设,如果计算的p值大于临界p值,则不能拒绝零假设。

八、正态性检验

双变量回归模型的经典假定是假定误差项ui服从正态分布,但是由于不能直接观察真实的误差项ui,因此需要用ui的替代量ei去检验ui的正态性。常用的检验方法如下:

1.残差直方图

残差直方图是用于获知随机变量概率密度函数(PDF)形状的一种简单图形工具。在横轴上,把变量值(例如OLS残差)划分为若干适当的区间,在每一个区间,建立高度与观察值个数(即频率)相一致的长方形。

如果把钟形正态曲线叠加在直方图上,就会对变量的概率分布有一直观了解。在实践中,常常通过回归残差的直方图粗略地了解其概率分布的形状。

2.正态概率图

另一种研究随机变量PDF的简单图形工具是正态概率图,这需要在专用的正态概率纸上作图。在横轴上(X轴)标出变量值(例如OLS残差值ei),在纵轴上(Y轴)标出如果服从正态分布变量所对应的期望值。因此,如果变量来自正态总体,则正态概率近似一条直线。 3.雅克-贝拉检验

常用的正态性检验方法是雅克-贝拉检验,它是建立在OLS残差基础上的一种渐近(或大样本)检验方法。首先计算出随机变量(例如OLS残差)的偏度系数S(PDF对称性的度量)和峰度系数K(PDF“胖瘦”的度量)。对于正态分布变量,偏度为0,峰度为3。

雅克和贝拉建立了如下检验统计量:

n?2?K?3?JB??S?6?4?其中,n为样本容量,S为偏度,K为峰度。

2?? ??2雅克和贝拉证明了:在正态性假设下,上式给出的JB统计量渐近服从自由度为2的?分布,用符号表示为

2 JBasy~?(2)其中,asy表示“渐近地”。

从统计量的表达式可以看出,如果变量服从正态分布,则S为0,?K?3?为0,因而JB统计量为零。但是如果变量不服从正态分布,则JB统计量为一个逐渐增大值。根据?分布表很容易计算出JB统计量的值。如果

2

在选定的显著水平下,计算的?值超过临界的?值,则拒绝正态分布的零假设;如果没有超过临界的?值,则不能拒绝零假设。当然,如果能够计算出?值的p值,则可以得知获此?值的精确概率。

九、预测

回归分析的目的之一是根据解释变量的值预测因变量的均值。给定样本观测值以外的一个样本X0,可以根

22222?,但对任一给定样本,Y?不可能等于其真实均值,因此需要求出真实据估计的回归方程得出预测值的估计值Y00?的置信区间就需要求出Y?的抽样分布。在CLRM假定下,可以证明Y?服从正态分均值预测值的一个区间。求Y000布,其均值、方差分别为

E?YX0??B1?B2X0?X0?X2?1?VarY0????nxi2???????2?

????其中,X——X的样本均值;

?x2i——X与X的离差平方和;

?2——ui的方差;

n——样本容量。

?服从自由度为?n?2?的t分布。因此,对于?2代替,则Y由于实践中?2是未知的,如果用其无偏估计量?0给定的X0,能够利用t分布建立一个Y的真实(总体)均值100?1???%的置信区间:

??B?BX?b?bX?tseY????1??? P?b1?b2X0?t?/2seY0120120?/20??

3.2 课后习题详解

一、问 题

1.解释概念

(1)最小二乘 (4)估计量的标准误 (7)自相关

????

(2)OLS估计量 (5)同方差性 (3)估计量的方差 (6)异方差性

(9)解释平方和(ESS) (12)估计值的标准误

(8)总平方和(TSS) (11)判定系数r

2(10)残差平方和(RSS)

(13)BLUE (14)显著性检验 (15)t检验 (16)单边检验 (17)双边检验 (18)统计显著 答:(1)在回归模型中,最小二乘法就是以残差(被解释变量的实际值同拟合值之间的差)平方和最小的原则对回归模型中的系数进行估计的方法。

(2)运用最小二乘法法计算出的总体回归参数的估计量。

(3)回归参数估计量是一个随机变量,其方差衡量了估计量同估计量均值的偏离程度。 (4)估计量方差的(正)平方根。 (5)方差相同。 (6)方差不同。

(7)一个随机变量与其滞后项之间的相关。

(8)在回归模型中,总离差平方和是指被解释变量同其均值之间差的平方和,即

??Yi?Y?2。

(9)ESS为总离差平方和(TSS)中解释变量所解释的那部分离差平方和。 (10)RSS为总离差平方和(TSS)中解释变量未解释的那部分离差平方和。 (11)它衡量了解释变量解释的那部分离差平方和占被解释变量总离差平方和的比例。简言之,它等于ESS同TSS之间的比值。

(12)Y的估计值的标准误。

(13)BLUE称为最佳线性无偏估计量,即该估计量是无偏估计量,且在所有的无偏估计量中其方差最小。 (14)对统计假设的检验过程。

(15)基于t分布的统计假设检验过程。

(16)当备择假设是单边假设时,称该检验为单边检验。例如零假设为H0:u?u0,而备择假设为H1:u?u0或u?u0,其中u为均值。

(17)在双边检验中,备择假设是双边假设。 (18)其为拒绝零假设的简称。

2.判断正误并说明理由。

(1)OLS就是使误差平方和最小化的估计过程。

(2)计算OLS估计量无须古典线性回归模型的基本假定。 (3)高斯一马尔柯夫定理是OLS的理论依据。

(4)在双变量回归模型中,若扰动项ui服从正态分布,则b2是B2更准确的估计值。 (5)只有当ui服从正态分布时,OLS估计量b1、b2才服从正态分布。 (6)r是TSS/ESS的比值。

(7)给定显著水平?及自由度,若计算得到的t值超过临界的t值,则接受零假设。 (8)相关系数r与斜率b2同号。 (9)p值和显著水平?是一回事儿。

答:(1)错误,其最小化的是残差平方和,即最小化

2?e2i。

(2)正确。 (3)正确。

(4)错误。在估计回归系数时,0LS对干扰项的概率分布没有任何要求。

(5)正确。OLS的估计量是ui的线性函数,且当ui服从正态分布时,OLS估计量也服从正态分布(任何服从正态分布的随机变量的线性组合依旧服从正态分布)。

(6)错误。应为

ESS。 TSS(7)错误。应该拒绝零假设。

(8)正确。两者计算公式中的分子都包含X与Y的相关系数,而X与Y的相关系数可正可负。

(9)不一定。p值就是当零假设为真时,检验统计量大干或等于实际观测值的概率,其为某统计量精确的显著水平,它可能与任意选择的显著性水平?不同。

3.填空。

(1)若B2?0,则b2/se?b2?=______。 (2)若B2?0,则t?b2/______。 (3)r2位于______与______之间。 (4)r位于______与______之间。

(5)TSS=RSS+______。

(6)TSS的自由度=______的自由度+RSS的自由度。

?称为______。 (7)?(8)(9)

?2i=∑(Yi-_________)。

222?y=b2(______)。

答:(1)t (2)se?b2? (3)0和1

(4)-1和1

(5)ESS (6)ESS

(7)估计量的标准差 (8)

??Yi?Y2i?2

2i(9)b22?x??e

4.考虑下面的回归模型:

???66.1058?0.0650XYiise??10.7509?t??n?20,????18.73?

r2?0.9460完成空缺。如果??5%,能否接受假设:真实的B2为零?你是用单边检验还是双边检验,为什么? 答:完整的回归结果如下:

???66.1058?0.0650XYiise??10.7509?R2?0.9460?0.0035?t???6.1489??18.73?n?20

自由度为18,显著性水平为5%的t分布临界值为2.101(双边)和1734(单边)。因为估计量的t统计量为18.73,远远超过t分布的临界值,所以拒绝零假设。此处用双边检验较为合适,因为先验的理论假设通常不会考虑系数的符号。

5.证明下列r的计算公式是恒等的:

2

r2?1?答:

?yi2?ei2??i2?y?yi2?b22?xi2?y2i??yy???

????y???y2ii22iir2???yi2??ei2?/?yi2??$yi/?yi2?b22?xi2/?yi2

之后运用

2?y??y??e2ii22i和

?y2i2?b2?xi2??ei2即可。最后一个等号运用了等式:

??yy

ii?b2?yixi。

6.证明:答:

?e?nY?nb?nbX?0。

i12?ei?nY?nY?b2X?nb2X?0,还可参见习题22的解答。

??二、习 题

7.戴尔(DaleBails)和拉里(LarryPeppers)根据美国1962~1977年的数据,得到如下汽车需求函数:

??5807?3.24XYiise??1.634?r?0.222

其中,Y=私家车零售数量(千辆),X=实际可支配收入(1972年美元价,10亿美元)。注:未给出b1的标准差。

(1)对B2建立一个95%的置信区间。

(2)检验假设:该置信区间包括B2?0。如果不包括,那么接受零假设吗?

(3)在H0:B2?0下,计算t值,在5%的显著水平下,它是统计显著的吗?选择双边t检验还是单边t检验?为什么?

答:(1)自由度为14,显著性水平为5%的t分布临界值为2.145,因此置信区间为:3.24±2.145(1.634)=(-0.2649,6.7449)

(2)上述置信区间包含B2,因此不能拒绝零假设。

(3)t=3.24/1.634=19829。私家车零售量应与实际可支配收入呈正相关,因此提出H0:B2?0和

H0:B2?0。由此可知,单边t检验较为合适。显著性水平为5%的单边t检验临界值为1.761,本例中计算出的t检验统计量为1.9829,大于临界值,因此拒绝零假设(有时单边检验和双边检验的结果可能不同)。

8.现代投资分析的特征线涉及如下回归方程:

rt?B1?B2rmt?ut

其中,r——股票或债券的收益率;

rm——市场有价证券的收益率(用市场指数表示,比如S&P500);

t——时间。

在投资分析中,B2称为债券的beta系数,用于度量市场的风险程度,即市场对公司财富的影响。

福格勒(Fogler)和加纳帕希(Ganapathy)根据1956~1976年240个月度数据,得到IBM股票的回归方程,市场指数采用的是作者在芝加哥大学建立的市场有价证券指数:

?t?0.7264?1.0598rmtrse??0.3001?(1)解释估计的斜率与截距。 (2)如何解释r?

2?0.0728?r2?0.4710

(3)beta系数大于1的证券称为不稳定证券。建立适当的零假设及备择假设。并用t检验进行假设检验(??5%)。

答:(1)斜率系数为1.0598,其经济意义为在1956~1976年间,市场有价证券收益率每上升1个百分点,IBM股票的平均收益率上升约1.06个百分点。若同时期的市场有价证券收益率为零,IBM股票的平均收益率约为0.73%,当然这是不符合经济学常识的。

(2)有价证券收益率(的变异程度)可以解释IBM股票收益率变异程度的47%。

(3)H0:B2?1,H1:B2?1,t??1.0598?1??0.82140.0728。

该检验的自由度为238,通过检验可知B2没有通过显著性水平为5%的统计性检验(单边检验)。因此,在所研究的样本区间内,IBM股票的贝塔系数并不显著的不等于1。这意味着于整个股票市场来讲,IBM的增长势头并不是十分强劲。

9.根据X和Y的10组观察值得到如下数据。

?Y?1110;?X?1680;?XY?204200; ?X?315400;?Y?133300iiii22ii假定满足CLRM的所有假定,求 (1)b1和b2。 (2)b1和b2的标准误。 (3)r。

(4)对B1、B2分别建立95%的置信区间。

(5)根据(4)建立的置信区间,能否接受零假设:B2=0? 答:(1)b1?2111;b2?0.5344。 (2)se?b1?=8.5894;se?b2?=0.0484。 (3)r=0.9385。

22B1置信水平为95%的置信区间为B2置信水平为95%的置信区间为(4)(1.4128,41.0272),(0.4228,0.6460)。

(5)拒绝H0,因为上述置信区间中不包含B2?0。

10.根据美国1970~1983年的数据(参见网上教材表3-4),得到如下回归结果:

GNPt??995.5183?8.7503M1t????r2?0.9488se???t???3.8258??0.3214???

其中,GNP是国民生产总值(10亿美元),M1是货币供给(10亿美元)。 注:M1包括现金、活期存款、旅游支票等。

(1)填充括号内缺省的数值。

(2)货币学家认为:货币供给对GNP有显著的正面影响,如何检验这个假设? (3)负的截距有什么意义?

(4)假定2007年M1为7500亿美元,预测该年平均的GNP? 答:(1)完整的回归结果如下:

GNPt??995.5183?8.7503M1tse??260.2128?t???3.8258?(2)H0:B2?0,H0:B2?0。拒绝零假设。 (3)这里负的截距项没有特殊的经济学意义。

?0.3214??27.2230?R2?0.9488

?(4)GNP2007??995.5183?8.7503?750?55670。

11.政治的经济周期:经济事件会影响总统选举吗?为了检验政治周期理论,格雷(GarySmith)20根据1928~1980年每四年(即1928,1932,…)总统选举的数据得到如下回归结果:

??53.10?1.70XYttt??34.10???2.67?r?0.372

其中,Y表示在职总统收到的公众投票(%),X表示失业的变化率——选取当年的失业率减去上一年的失

业率。

(1)先验地,预期X的符号为正还是负?

(2)该回归结果证实了政治周期理论吗?写出求证过程。 (3)1984~1988年总统选举的结果是否验证了该理论?

(4)如何计算b1和b2的标准误? 答:(1)负的。

(2)是的。本例中,n?14(1928~1980年间共有14次大选),因此自由度为12。显著性水平为5%时,

。 t统计量是显著的(t统计量为-2.67,检验为单边检验)

(3)可能。但罗纳德·里根的个人知名度也是其能赢得1984年大选的重要原因之一。

(4)因为当零假设为真,即Bi等于零时,t?bi/se?bi?,经变换可得se?bi??bi/t。在当前的例子中,其标准误分别为1.5572和0.6367。 12.为了研究美国制造业设备利用率与通货膨胀之间的关系,得到表3-5的数据(参见网上教材)。其中,Y=通胀率(用GDP价格平减指数的变化率来度量),X=制造业设备利用率。

(1)先验地,预期设备利用率与通货膨胀之间有怎样的关系?理论基础是什么? (2)做Y对X的回归,并按照教材式(3-46)的形式报告回归结果。 (3)回归方程中的斜率是统计显著的吗? (4)它是否显著不为1?

(5)设备自然利用率定义为当Y为零时的值。求样本期内设备自然利用率? 答:(1)可能正相关也可能负相关。如果产出的增加是因为设备利用率的增长的话,价格(通货膨胀)增长速度就会缓慢下降。但是如果当前的设备利用率水平已经处于最佳水平,此时总需求的增加将会推动价格水平的上涨。

(2)EViews的数据结果如下:

Dependent Variable:INFLATION Sample:1960 2007 Variable Coefficient Std Error t-Statistic Prob C 5.9531476 7.76210416 0.7669918 0.4470 CAPACITY -0021545 0.095918 -0.224615 0.82303 R-squared 0.001096 (3)虽然斜率的估计值为负,但其在统计上并不显著,因为p值很高。 (4)是的。在零假设为真的条件下,即斜率为1,估计量的t统计量为

t??0.0215?1

0.0959得到上述大小的t统计量的概率几乎为零,因此可拒绝零假设。

(5)解方程5.9535?0.0215C?0,可得C?276.91,并称其为设备自然利用率。

注意:上述回归结果是不显著的,而且估计出的自然设备利用率高达276.91也是有问题的,因为该数值不应该超过100。上述回归之所以失效,是因为20世纪70年代出现了高通胀率且在70年代中期出现了滞涨。如果去掉70年代的数据,即运用1982~2001年的数据进行回归,就会得到较为合理且统计上显著的结果,不难发现,此时估计出的自然设备利用率为93.90。

13.反向回归。继续习题12,但现在做X对Y的回归。 (1)报告回归结果,并解释回归结果。

(2)如果把两个回归的斜率系数相乘,得到什么结果?

(3)习题12中的回归称为直接回归。什么时候采取反向回归是适合的?

(4)假定X与Y的r为1。是否意味着Y对X的回归与X对Y的回归没什么差别? 答:(1)EViews的数据结果如下:

Dependent Variable:CAPACITY Sample:1960 2007 Variable Coefficient Std. Error t-Statistic Prob C 81.0226 1.147241 70.6238 0.0000 INFLATION -0.05085 0.226396 -0.22462 0.8223 R-squared 0.00011 注意:该回归的回归系数也是不显著的,原因与之前所述的相同。

(2)上述两个回归中斜率估计值的乘积为0.0011,与两个回归模型的R相同。曾经在练习2.21中讨论过这个问题。

(3)考虑另外一个例子。令Y为职工工资,X为职工学历水平。马达拉的研究表明,以Y为被解释变量,X为解释变量进行回归可以检验具有相同学历的男职工和女职工是否获得相同的工资,而以X为被解释变量,

女职工的学历水平是否相同。而后者可以用来说明在工Y为解释变量进行回归可以检验获得相同工资水平的男、

资发放过程中是否存在性别歧视。

(4)不是。

14.表3-1给出了1974~1986年美国制造业税后利润X(100万美元)以及3月期现金利息Y(100万美元)的数据。

表3-1 美国制造业现金利息(Y)与税后利润(X) 年 份 Y X 年 份 Y X 22

1974 19 467 58 747 1975 19 968 49 135 1976 22 763 64 519 1977 26 585 70 366 1978 28 932 81 148 1979 32 491 98 698 1980 36 495 92 579 1981 40 317 101 302 1982 41 259 71 028 1983 41 624 85 834 1984 45 102 107 648 1985 45 517 87 648 1986 46 044 83 121 资料来源:Business Statistics,1986,U.S.Department of Commerce,Bureau of Economic Analysis,December1987,P.72.

(1)预期现金利息与税后利润的关系如何? (2)做Y对X的散点图。

(3)该散点图是否与预期相符?

(4)如果是,做Y对X的OLS回归,并给出常用统计量。

(5)对斜率建立一个99%置信区间,并检验假设:真实的斜率为零;即现金利息与税后利润之间不相关。 答:(1)正相关。 (2)、(3)从散点图看,虽然存在个别的异常值,但总体上讲,显示两者之间存在正相关关系。 (4)回归结果如下:

??373.3014?0.4199XYttse??9530.3786?t??0.0392??0.1154??0.1154?R2?0.5464

(5)置信水平为99%的置信区间为?0.0615,0.778?。

因为置信区间中不包含0,所以可以拒绝零假设。

15.参考表2-15给出的S.A.T数据(参见网上教材)。根据如下回归方程,通过女学生的数学分数来预测男生的数学分数:

Yt?B1?B2Xt?ut

其中Y和X分别代表男、女生的数学分数。 (1)估计上述回归方程,给出常用的统计量。 (2)检验假设:Y与X不相关。

(3)假定2008年女生的数学分数为490,预测该年男生的数学平均分数。 (4)对(3)的预测值建立一个95%的置信区间。 答:(1)回归结果如下:

?MATHMt?198.7370?0.6705MATHFMtse??12.8754??0.0265?t??15.4354??25.3325??(3)MATHM2008?527.282?527。

(4)置信区间为?526.7373,527.8090?。

R2?0.9497(2)拒绝零假设,因为t值为25.3325远远大于显著性水平为0.001时的临界值。

16.重复习题15,但令Y和X分别代表男、女生逻辑分数,并假定2008年女生的逻辑分数为505。 解答:(1)回归结果如下:

??132.7778?0.75FemaleCRMaleCRttse??33.7245?(2)因为t值很大,因此可拒绝零假设。

?0.0265?t??15.4354??25.3325??(3)MaleCR2008?511.528。

(4)置信区间为?510.5676,512.4879?。

17.考虑下面的回归结果:

R2?0.9497???0.17?5.26XYttt???1.73?2?2.71?

R?0.10DW?2.01其中,Y——当年1月份到次年1月份股票价格指数的实际收益;X——去年总股息与去年股票价格指数

之比;t——时间。

注:DW统计量参见第10章。 时间从1926~1982年。

R2表示经过校正的判定系数。DW统计量是自相关的度量指标,将在随后章节中进一步解释。

(1)如何解释上述回归方程?

(2)如果接受了上面的结论,是不是意味着:当股息/价格比很高时,最好的投资策略是投资股票? (3)如果想知道(2)的答案,参阅希勒的分析。 答:(1)本年的股票价格指数实际收益率和上一年的总股息和股票价格指数比之间呈正相关关系,后者每提高一单位,实际收益将平均上升5.26个百分点。而截距项的估计值没有实际的经济学意义。

(2)如果上述回归结果成立,这将对当代金融的有效市场假说产生重大影响。

18.参考教材例2-1(受教育年限与平均小时收入)。教材表2-5给出了相应数据,教材式(2-21)给出了回归结果。

(1)求截距和斜率的标准误以及r。

(2)检验假设:受教育年限对平均小时工资没有影响?你使用哪种检验?为什么?

(3)如果拒绝(2)中的零假设,那么是否也拒绝假设:教材式(2-21)中的斜率系数显著不为1?给出必要的计算。

答:(1)EViews的回归结果如下: Dependent Variable:AVGHWAGE Sample:1 13 Variable Coefficient Std. Error t-Statistic Prob C -0.014 453 0.874 624 -0.016 525 0.9871 YEARSSCH 0.724 097 0.069 581 10.40648 0.0000 R-squared 0.907791 (2)可以拒绝零假设,因为t值很大,且其p值几乎为零。 (3)t?20.7204?1??3.9712,经检验可知,t统计量是显著的,得到上述t值的p值为0.0011(双边检

0.0695验),因此可以拒绝零假设。认为教育水平的估计系数是显著不为1的。

19.教材例2-2讨论了奥肯定律,见教材式(2-22)。这个方程还可以写成Xt?B1?B2Yt,其中,X=实际产出增长率(即GDP增长率),Y=失业率的变化率(%)。利用表2-13中的数据(见网上教材)。

(1)估计上述回归,并按照教材式(3-46)的形式报告回归结果。 (2)失业率的变化是实际GDP增长率的一个决定因素吗?为什么? (3)如何解释回归中的截距系数?它是否有经济意义? 答:该问题是练习17的延伸。

(1)根据回归模型的形式,我们首先要根据实际GDP(RGDP)和失业率 (UNRATE)计算新变量的值,具体数值见回归结果输出表。计算公式如下:

CHUNRATE=UNRATE-UNRATE??1?PCTCRGDP=??RGDP/RGDP?-1????100?100运用EViews进行回归,可得以下结果:

Dependent Variable:PCTCRGDP Sample(adjusted):1960 2006

Variable Coefficient Std Error t-Statistic Prob C 3.319 11 0.166 7341 9.906 54 0.0000 CHUNRATE -1.862 97 0.185 785 -10.027 58 0.0000 R-squared 0.695 6 注意:样本的起始时间从1960年变为1961年,这是因为我们计算变化率(RGDP和UNRATE)时损失了第一期的观测值。

(2)是的。因为斜率估计量的t值为-10.028,其相应的p值几乎为零。 (3)截距项的回归系数在统计上也是显著的。其经济学意义为当失业率为零时,实际GDP的增长率为3.3%,该数字可以理解为长期或稳态时的GDP增长率。

20.教材例2-3讨论了股票价格与利率之间的关系。教材式(2-24)给出的回归结果是统计显著的吗?给出必要的计算。

答:运用EViews软件进行回归,可得以下结果:

Dependent Variable:SP500 Sample:1980 1999 Variable Coefficient Std.Error t-Statistic Prob C 404.406 7 128.647 5 3.143 5 0.0041 1/MTB3 996.865 6 404.232 4 2.466 1 0.0206 R-squared 0.273968 斜率的回归系数在2%的显著水平下是显著的,截距的回归系数在0.4%的显著水平下也是显著的。由于留存误差的问题,此处的回归结果和书中的回归结果有微小的不同。

21.教材例2-5讨论了古董钟和它的价格。根据教材表2-14,得到了回归结果教材式(2-27)和教材式(2-28)。求每个回归结果的标准误、t值和r。检验两个回归的斜率系数是否是统计显著的。

答:运用EViews,可得教材式(2-27)的回归结果如下: Dependent Variable:PRICE Sample:1 32 Variable Coefficient Std Error t-Statistic Prob C -191.666 2 264.439 3 -0.724 802 0.4742 AGE 10.485 62 1.793 729 5.845 711 0.0000 R-squared 0.532509 回归模型斜率在统计上是高度显著的,因为零假设为真的条件下,令t统计量大于或等于5.8457的p值几乎为零。而截距项的p值却很高,因此其在统计上是不显著的。

同样,可得教材式(2-28)的回归结果为:

Dependent Variable:PRICE Sample:1 32 2

Variable Coefficient Std Error t-Statistic Prob C 807.950 1 231.092 1 3.496 226 0.0015 NOBIDDERS 54.572 45 23.266 05 2.345 582 0.0258 R-squared 0.154971 此时两个变量回归系数的p值都很小,因此其在统计上是显著的。

22.参考习题22。利用OLS回归回答问题(1)、(2)和(3)。 答:下表所呈现的回归结果同练习2.16的结果相同。 (1)EViews的回归结果如下: Dependent Variable:ASP Sample:1 64 Variable Coefficient Std Error t-Statistic Prob. C -882 20.49 766 38.60 -1.151 1 0.2541 GPA 552 27.44 226 97.53 2.433 2 0.0179 R-squared 0.087 2

可见,GPA对ASP存在正向影响,其回归系数在统计上是显著的,因为相应回归系数的p值非常小。 (2)ASP对CMAT的回归结果如下: Dependent Variable:ASP Sample:1 65 Variable Coefficient Std Error t-Statisfic Prob. C -241 386.6 29 464.86 -8.192 36 0.0000 GMAT 511.720 7 44.357 05 11.536 4 0.0000 R-squared 0.6822 GMAT回归系数的估计量在统计上是显著的,且其对ASP存在正向影响。 (3)ASP对学费的回归结果:

Dependent Variable:ASP Sample:1 65 Variable Coefficient Std Error t-Statistic Prob C 42 878.33 5 502.063 5 7.793 14 0.0000 TUITION 1.634784 0.156 924 10.417.7 0.0000 R-squared 0.6364 学费(在一定程度上反映了教学质量)对ASP存在显著的正向影响。同样,入学等级对ASP也存在显著的正向影响,这一点可以从以下的回归结果中看出:

Dependent Variable:ASP Sample:1 65 Variable Coefficient Std Error t-Statistic Prob C -29 943.60 10 973.495 -2.728 72 0.0089 RECRUITER 37 300.30 3 020.518 7 12.348 97 0.0000 R-squared 0.7644

23.表3-7给出了美国1959~2006年进口货物支出(Y)和个人可支配收入(X)的数据(见网上教材)。根据表中的数据,估计进口支出函数,给出常用的统计量,并检验假设:进口支出与个人可支配收入不相关。

答:回归结果如下:其中Y为进口货物支出,X为个人可支配收入。

Dependent Variable:Y Sample:19592006 Variable Coefficient Std Error t-Statistic Prob C -136.164 9 23.565 09 -5.778 25 0.0000

X 0.208 248 0.005 467 38.091 1 0.0000 R-squared 0.9693 不难发现,个人可支配收入同进口货物支出之间存在显著的正向关系。斜率项的p值几乎为零,因此可以拒绝零假设。

24.证明OLS估计量b1和b2是线性估计量,并证明这些估计量是误差项ui的线性函数。 (提示:b2?) ?xiyi/?xi??wiyi其中,wi?xi/?xi,注意X是非随机的。

22答:令wi?xi/?xi,则b2??wiyi,因此b2是一个线性的估计量,即b2是Y的线性函数,在推导过程

2中,我们将X设定为非随机的。类似的步骤可以证明b1也是线性的估计量。

因为

?xy??xY??x?B?BX?x?x?x?x?B?xX??xu?B?x?x?x?xu?B??x?xX?1。

推导过程中运用了?x???X?X??0和

?xb2?ii2ii2ii122ii1i2ii22ii2iii2ii2iiii?ui?

ii2i?xiui????B2。 因此有E?b2??E?B2?2??xi?????xiui?E??xiui?2??注意:E?,这是因为。类似的步骤x?i为常数且X和u不相关(OLS基本假定)2??x2??xii??可以推导出b1也是无偏的。

25.证明教材式(3-35)。(提示:把教材式(3-33)平方,然后利用OLS的性质。) 答:对式yi?b2xi?ei两边同时取平方再求和,因为

?xe?0,有:

ii22?y?b2

2i?b22?xi??ei?2b2?xiei2i22?x??ei

第四章 多元回归:估计与假设检验

4.1 复习笔记

一、三变量线性回归模型

1.三变量回归模型的函数形式

把双变量总体回归函数(PRF)一般化,即可写出三变量PRF的非随机形式:

E?Yt??B1?B2X2t?B3X3t (4-1)

随机形式为

Yt?B1?B2X2t?B3X3t?ut?E?Yt??ut (4-2)

其中,Y——应变量;X2,X3——解释变量;u——随机扰动项,在三变量模型或多元回归模型中,引入u的原因与双变量模型相同。B1是截距,表示了当X2,X3为零时得Y的平均值,B2,B3称为偏回归系数。

多元回归模型的随机形式式(4-2)表明,任何一个Y值可以表示成为两部分之和:

(1)系统成分或确定性成分B1?B2X2t?B3X3t,也就是Y的均值E?Yt?(即总体回归线上的点)。 (2)非系统成分或随机成分u。由除X2、X3以外其他因素决定。 2.偏回归系数的含义

B2,B3称为偏回归系数或偏斜率系数。B2度量了在X3保持不变的情况下,X2单位变动引起Y均值E?Y?的变化量。同样的B3度量了在X2保持不变的情况下,X3单位变动引起Y均值E?Y?的变化量。这是多元回归的一条特殊性质;在双变量情形下,由于仅有一个解释变量,因而无须担心模型出现其他解释变量。而在多元回归中,想要知道的是Y均值的变动有多大比例“直接”来源于X2,多大比例“直接”来源于X3。

二、多元线性回归模型的若干假定

假定1:回归模型是参数线性的,并且是正确设定的;

假定2:X2、X3与扰动项u不相关。如果X2、X3是非随机的(即X2、X3在重复抽样中取固定值),则这个假定将自动满足。

但是,如果变量X是随机的,那么它们必须独立分布于误差项u,否则无法得到回归系数的无偏估计值。

假定3:误差项均值为零,即:E?ui??0。 假定4:同方差假定,即u的方差为一常量:

var?ui???2

假定5:误差项ui和uj无自相关,即

cov?ui,uj?,i?j

假定6:解释变量X2和X3之间不存在完全共线性,即两个解释变量之间无严格的线性关系,这是相对于双变量回归模型一个新假定。

假定7:为了进行假设检验,假定随机误差u服从均值为零,(同)方差为?2的正态分布。即

ui~N?0,?2?

根据假定6,解释变量X2和X3之间不存在严格的共线性,这个假定也称为无共线性或无多重共线性假定。无完全共线性通俗的解释是,变量X2不能表示为另一变量X3的线性函数。因而,如果有:

X2i?3?2X3i

X2i?4X3i

则这两个变量之间是共线性的,因为X2和X3之间存在严格的线性关系。

在完全共线性的情况下,不能估计偏回归系数B2和B3的值;换句话说,不能估计解释变量X2和X3各自对应变量Y的影响,因为在模型中没有两个独立的解释变量。

三、多元回归参数的估计 1.普通最小二乘估计量

要求OLS估计量,首先写出与PRF式(4-2)相应的样本回归函数(SRF):

Yt?b1?b2X2t?b3X3t?et (4-3)

样本回归方程为:

??b?bX?bX (4-4) Yt122t33t即估计的总体回归线(实际上是一个平面)。 OLS原则是选择未知参数值使得残差平方和(RSS)

?e2t尽可能小。首先,把模型(4-3)写为:

et?Yt?b1?b2X2t?b3X3t (4-5)

将方程两边平方再求和,得:

RSS:?et2???Yt?b1?b2X2t?b3X3t? (4-6)

最小二乘法就是使RSS(Yt真实值与估计值之差的平方和)最小化。 利用微积分求最小值的方法,可得到得到如下(最小二乘)正规方程:

2Y?b1?b2X2?b3X3?YX?YXt2t3t?b1?X2t?b2?X2t2?b3?X2tX3t ?b1?X3t?b2?X2tX3t?b3?X3t2对上面方程做简单的代数变换,得到如下三个OLS估计量:

b1?Y?b2X2?b3X3 (4-7) yx???x????yx???x??b???x???x????xx?yx???x????yx???x??b???x???x????xx?2t2t2tt3t22222t3t2t3t2t3t2tt2t32222t3t2t3t2t3tx? (4-8) ? (4-9)

2t3tx

其中,小写字母表示与其样本均值的离差。 2.OLS估计量的方差与标准误

得到截距及偏回归系数的OLS估计量之后,就可以按照双变量模型的方法推导出这些估计量的方差及标准误。根据这些方差或标准误获知不同样本估计量的变异性。与双变量模型相同,需要标准误主要有两个目的:(1)建立真实参数的置信区间;(2)检验统计假设。

222?1X2?2?x3t?x3?x2t?2XX3?x2tx3t22?var?b1????? (4-10) 222?n??x2t?x3t???x2tx3t???se?b1??var?b1? (4-11)

var?b2???x?x?x22t23t223t???x2tx3t??2 (4-12)

se?b2??var?b2?var?b3???x?x?x22t23t223t???x2tx3t??2 (4-13)

se?b3??var?b3? (4-14)

在所有这些表达式中,?2表示总体误差项ut的(同)方差,这个未知方差的OLS估计量是:

??2?e?2in?3 (4-15)

?2的正平方根是估计值的标准误或称回归的标准误(即Y偏离估计回归线的标准差): ?????2 ?由于

?et??2??Yt?Yt?2,因此在计算

2μt。计算RSS的一个更简便的方法,即

?et时,首先要求Y22?et??yt?b2?ytx2t?b3?ytx3t

也就是说,一旦估计出偏斜率的值,就很容易求得

?e2t。

3.多元回归OLS估计量的性质

在古典线性回归模型的基本假定下,双变量模型的OLS估计量是最优线性无偏估计量。这个性质对于多元回归同样成立。因此,根据OLS估计的每一个回归系数都是线性的和无偏的——平均而言,它与真实值一致。在所有线性无偏估计量中,OLS估计量具有最小方差性,所以,OLS估计量比其他线性无偏估计量更准确地估计了真实的参数值。简言之,OLS估计量是有效的。

四、估计多元回归的拟合优度:多元判定系数R2

在双变量模型中,教材式(3-38)定义的r度量了样本回归直线(SRL)的拟合优度,即单个解释变量X对应变量Y变动的解释比例或解释百分比。r的概念可以推广到包含多个解释变量的回归模型。因此,在三变量模型中,我们用多元判定系数度量X2和X3对应变量Y变动的联合解释比例,用符号R表示;从概念上讲,它

222

与r类似。

与双变量模型相同,有如下恒等式:

2TSS=ESS+RSS

其中,TSS——应变量Y的总平方和(方和。

与双变量模型相同,R定义为

2;E;RSS——残差平SS——回归平方和(即解释平方和)?yt)

2R2?2ESS TSS即R是解释平方和与总平方和的比值;与双变量模型惟一不同的是,现在的ESS与多个解释变量有关。 可以证明:

ESS?b2?ytx2t?b3?ytx3t

前面已经证明:

RSS??yt?b2?ytx2t?b3?ytx3t

因此:

2R?22b2?ytx2t?b3?ytx3t?y2

t顺便指出,R的正平方根R称为多元相关系数,与双变量模型的r类似。r度量了Y与X的线性相关程度,

R度量了Y与所有解释变量的线性相关程度。虽然r可正可负,但R总取正值。但在实际中,很少用到R。

五、多元回归的假设检验

虽然R度量了估计回归直线的拟合优度,但是R本身却不能判定估计的回归系数是否统计显著,即是否显著不为零,要检验零假设H0:B2?0。

在双变量模型中,如果假定误差项u服从正态分布,则OLS估计量b1、b2服从正态分布。假定7已经规定了多元回归中的u服从均值为0,方差为?2的正态分布。在此假定以及其他基本假定下,可以证明b1,b2,b3均服从均值分别为B1,B2,B3的正态分布,式(4-10)、式(4-12)和式(4-13)分别给出了它们的方差。

22?2代替?2,则OLS估计量服从自由度为?n?3?的t分布,而如果用真实的但不可观察的?2的无偏估计量?不是正态分布。即

t?b1?B1~tn?3 (4-16)

se?b1?b2?B2~tn?3 (4-17)

se?b2?t?t?

b3?B3~tn?3 (4-18)

se?b3?

六、对偏回归系数进行假设检验 假定有如下假设:

H0:B2?0,H1:B2?0

在上述零假设下,可用显著性检验法或置信区间法去检验零假设是否成立。 1.显著性检验法

在显著性检验方法中,需要建立一个统计量,求其抽样分布,选择一个显著水平?,并决定在所选显著水平下检验统计量的临界值。然后将从样本得到的检验统计量与其临界值比较,如果统计量的值超过临界值,则拒绝零假设。还可以求得统计量的p值,如果p值小于显著水平?,则拒绝零假设。在大多情况下,由于真实的?2

?2去代替,因此一般使用t统计量t?未知,需要用?2的估计量?bj?Bjse?bj?。

2.假设检验的置信区间法

假设检验的置信区间法就是在给定的显著性水平下构造一个置信区间,然后看回归系数在原假设成立的条件下是否落在这个区间,如果回归系数落在这个区间则不拒绝原假设,否则就拒绝原假设。给定显著性水平?,构造Bj的1??的置信区间为bj?t?/2?sebj,bj?t?/2?sebj??????。

3.回归系数的联合显著性检验

回归系数的联合显著性检验就是对下面的零假设进行检验:

H0:B2?B3?0 (4-19)

这个零假设称为联合假设,即B2,B3联合或同时为零(而不是单独为零)。这个假设表明两个解释变量联合对应变量Y无影响,等同于

H0:R2?0 (4-20)

即两个解释变量对应变量变化的解释比例为零。因此,假设式(4-19)与假设式(4-20)是等价的,称为多元回归的总体显著性检验,即Y是否与X2,X3线性相关。

对形如式(4-19)的假设进行检验可以采用方差分析技术。对下面的恒等式:

TSS=ESS+RSS

22

?yt?b2?ytx2t?b3?ytx3t??et (4-21)

式(4-21)将TSS分解为两个部分,一部分(ESS)由回归模型来解释,另一部分(RSS)不能由模型解释。对TSS各个组成部分进行研究称为方差分析。

表4-1给出了方差分析表。

表4-1 三变量回归模型的方差分析表

注:MSS=平方和的均值。

如果满足CLRM基本假定(以及假定6),在零假设下:H0:B2?B3?0,可以证明变量:

(4-22)

服从分子自由度为2,分母自由度为?n?3?的F分布,如果回归模型有k个解释变量(包括截距),则F值的分子自由度为(k?1),分母自由度为?n?k?。

根据式(4-22)计算出F值,并在所选显著水平下(犯第一类错误的概率)将其与临界F值(分子自由度为2,分母自由度为?n?3?做比较。如果计算的F值超过临界F值,则拒绝零假设:所有的解释变量同时为零。如果F值不超过临界F值,则不能拒绝零假设:解释变量对应变量无任何影响。 4.F与R2之间的重要关系

判定系数R与方差分析中用到的F值之间有如下重要关系:

2F??1?R?/?n?k?2R2/?k?1? (4-23)

其中,n为观察值的个数,k为包括截距在内的解释变量的个数。

式(4-23)表明了F与R之间的关系。这两个统计量同方向变动。当R2?0(即Y与解释变量X不相关)时,F为0。R值越大,F值也越大。当R取其极限值1时,F值趋于无穷大。

因此,F检验(用于度量总体回归直线的显著性)也可用于检验R的显著性——R是否显著不为零。因此,对总体回归方程显著性的F检验(式(4-22))可以采用R的形式(式(4-23))。方差分析表4-1也可等价地表示为表4-2。

表4-2 R形式的方差分析表

2222222

七、从多元回归模型到双变量模型:设定误差 一般情况下,多元回归模型的回归系数与应变量分别对每个解释变量单独做回归建立双变量模型的回归系数不相同,只有在解释变量相互独立时,多元回归模型的回归系数才等于双变量模型的回归系数。因为多元回归模型中的回归系数是在保持其他解释变量不变的情况下,一个解释变量对应变量的净影响;而双变量模型是省略掉其他变量所做的回归,回归系数体现的是总效果。因此,在多元回归模型中省略重要的解释变量会导致(模型的)设定偏差或设定误差,更具体来说,导致了模型中遗漏相关变量的设定误差。

八、校正的判定系数 1.校正判定系数的概念

判定系数R的一个重要性质就是模型中解释变量的个数越多,R值就越大。因为在模型中增加解释变量,残差平方和至少不会增加,这就容易产生错觉,要使得R值变大,只需要在模型中增加解释变量的个数就可以

222

了,因此在多元回归模型中R不再是一个很好的判断拟和优度的指标。这就需要重新定义一个拟合优度的度量指标,它能根据模型中解释变量的个数进行调整。校正的判定系数R就是这样一个度量指标,用符号R表示。

222R?1??1?R2?2n?1 (4-24) n?k校正的判定系数R有如下性质:

(1)如果k?1,则R?R。即随着模型中解释变量个数的增加,校正判定系数R越来越小于未校正判定系数R,这似乎是对增加解释变量的“惩罚”。

(2)虽然未校正判定系数R总为正,但校正判定系数R可能为负。

2.利用校正的判定系数确定是否增加新的解释变量

在实践中,为了解释某个现象,往往面临着在若干解释变量间进行取舍的问题。通常的做法是:只要校正判定系数R值增加(即使R值小于R的值),就可以增加新的解释变量。可以证明:如果增加变量系数的t值大于1,R就会增加,这里的t值是在零假设“真实系数为零”下计算得到的。”

九、受限最小二乘

前面所用的最小二乘法都是在回归系数没有任何约束的情况下使用的,当回归系数受到一些约束时,例如在

22222222222H0:B2?B3?...?Bm?1?0的零假设下使用的的最小二乘法就是受限最小二乘法。对于双变量回归模型

Yi?B1?B2X2i?B3X3i?...?Bm?1Xm?1,i?ui (4-25)

在零假设H0:B2?B3?...?Bm?1?0下,回归模型为:

Yi?B1?ui (4-26)

回归模型(4-26)称为受限模型,因为它表示X不属于模型(即除截距外所有解释变量的回归系数都为零)。回归模型(4-25)称为非受限模型,因为它包含了所有相关变量。由于模型(4-26)是受限模型,所以当用OLS估计参数时,称为受限最小二乘法。由于模型(4-25)是非受限模型,所以当用OLS估计参数时,称为非受限最小二乘法。

为了检验约束条件是否成立,即是选择受限模型还是非受限模型,可以使用F统计量进行检验。可以证明,

F??1?Rur2?/?n?k??R2ur?Rr2?/m~Fm,n?k (4-27)

2服从分子自由度为m,分母自由度为?n?k?的F分布,其中Rr为受限模型得到的R,Rur为非受限模

22型得到的R,m为受限回归的限制个数,n为样本观察值的个数,k为非受限模型待估参数的个数(包括截距项)。如果从方程(4-27)估计的F值大于所选显著水平下的临界F值,则拒绝受限回归。在这种情形下,受限模型的约束是无效的。

4.2 课后习题详解

一、问 题 1.解释概念

2