计量经济学课后习题答案 第一章到第九章齐 郭存芝 杜延军 李春吉 下载本文

第一章

1.计量经济学是一门什么样的学科?

答:计量经济学的英文单词是Econometrics,本意是“经济计量”,研究经济问题的计量方法,因此有时也译为“经济计量学”。将Econometrics译为“计量经济学”是为了强调它是现代经济学的一门分支学科,不仅要研究经济问题的计量方法,还要研究经济问题发展变化的数量规律。

可以认为,计量经济学是以经济理论为指导,以经济数据为依据,以数学、统计方法为手段,通过建立、估计、检验经济模型,揭示客观经济活动中存在的随机因果关系的一门应用经济学的分支学科。

2.计量经济学与经济理论、数学、统计学的联系和区别是什么?

答:计量经济学是经济理论、数学、统计学的结合,是经济学、数学、统计学的交叉学科(或边缘学科)。计量经济学与经济学、数学、统计学的联系主要是计量经济学对这些学科的应用。计量经济学对经济学的应用主要体现在以下几个方面:第一,计量经济学模型的选择和确定,包括对变量和经济模型的选择,需要经济学理论提供依据和思路;第二,计量经济分析中对经济模型的修改和调整,如改变函数形式、增减变量等,需要有经济理论的指导和把握;第三,计量经济分析结果的解读和应用也需要经济理论提供基础、背景和思路。计量经济学对统计学的应用,至少有两个重要方面:一是计量经济分析所采用的数据的收集与处理、参数的估计等,需要使用统计学的方法和技术来完成;一是参数估计值、模型的预测结果的可靠性,需要使用统计方法加以分析、判断。计量经济学对数学的应用也是多方面的,首先,对非线性函数进行线性转化的方法和技巧,是数学在计量经济学中的应用;其次,任何的参数估计归根结底都是数学运算,较复杂的参数估计方法,或者较复杂的模型的参数估计,更需要相当的数学知识和数学运算能力,另外,在计量经济理论和方法的研究方面,需要用到许多的数学知识和原理。

计量经济学与经济学、数学、统计学的区别也很明显,经济学、数学、统计学中的任何一门学科,都不能替代计量经济学,这三门学科简单地合起来,也不能替代计量经济学。计量经济学与经济学的主要区别在于:经济学一般根据逻辑推理得出结论,说明经济现象和过程的本质与规律,大多是定性的表述。虽然理论经济学有时也会涉及经济现象和过程的数量关系,如产出随投入要素的增减而增减,但不提供这类数量关系的具体度量,不说明随投入要素的增减产出增减多少。计量经济学则要对经济理论所确定的数量关系作出具体估计,也就是对经济理论进行经验的证明。计量经济学与统计学最根本的区别在于:第一,计量经济学是以问题为导向,以经济模型为核心的,统计学则是以数据为核心,常常也是以数据为导向的。虽然现代统计学并不排斥经济理论和模型,有时也会利用它们,但不一定以特定的经济理论或模型为基础和出发点,常常可以通过对经济数据的统计直接得出结论,侧重于数据的采集、筛选和处理;第二,计量经济学对经济理论的实证作用较强。计量经济学从经济理论和经济模型出发,进行分析的过程,实际上是对经济理论证实或证伪的过程。这使得它对经济理论的验证作用很强,比统计学强的多;第三,计量经济学对经济问题有更重要的指导作用。计量经济学通常不仅要对数据进行处理和分析,获得经济问题的一些数字特征,而且要借助于经济理论和数学工具,对经济问题作出更深刻的解剖和解读。经过计量经济分析实证检验的经济理论和模型,能对分析、研究和预测更广泛的经济问题起到重要作用。计量经济学与数学的区别不言而喻,因为数学只是计量经济分析及其理论研究的工具,与实证分析经济问题的计量经济学的区别显而易见。

3.经典计量经济学与非经典计量经济学是如何划分的?

1

答:经典计量经济学与非经典计量经济学的划分可从计量经济学的发展时期及其理论方法上的特征来把握。经典计量经济学一般指上世纪70年代以前发展起来的计量经济学,在理论方法上具有以下五个方面的共同特征:第一,在模型类型上,采用随机模型;第二,在模型导向上,以经济理论为导向;第三,在模型结构上,采用线性或可化为线性的模型,反映变量之间的因果关系;第四,在数据类型上,采用时间序列数据或截面数据;第五,在估计方法上,采用最小二乘法或最大似然法。非经典计量经济学一般指上世纪70年代以后发展起来的计量经济学,也称现代计量经济学,与经典计量经济学理论方法上的五个方面的特征相对应,非经典计量经济学包括模型类型非经典计量经济学问题、模型导向非经典计量经济学问题、模型结构非经典计量经济学问题、数据类型非经典计量经济学问题、估计方法非经典计量经济学问题五个方面的内容。

4.计量经济研究中如何进行理论模型的设定?

答:理论模型的设定,是对经济问题的数学描述或模拟,涉及变量的设定、模型函数形式的设定、参数取值范围的设定三个方面。

理论模型设定中变量的设定,主要是解释变量的设定,因为被解释变量是作为研究对象的变量,可由研究问题本身直接确定。解释变量的设定需要通过以下几个方面把握:第一,解释变量应是根据经济理论或实践经验确定的被解释变量的主要影响因素,遗漏了主要影响因素或将次要影响因素甚至不相关因素引入模型,都可能导致研究结果的偏误;第二,若有多个解释变量,需注意避免解释变量之间的相关性。解释变量之间若存在一定的相关关系,可直接影响参数估计量的性质,降低研究结果的可靠性;第三,在设定解释变量的同时,应注意保证与解释变量对应的观察数据的可得性,没有样本观察数据的支持,就得不到模型的参数估计值,进一步的研究也将无法展开。

模型函数形式的设定,首先,可以直接采用数理经济学已有的函数形式,另外,也可以根据样本观察数据反映出来的变量之间的关系设定,对于其他事先无法确定模型函数形式的情况,可采用各种可能的函数形式进行模拟,选择模拟结果最好的函数形式。需要指出的是,这里设定的模型函数形式只是模型函数形式的初步设定,在模型参数估计和检验的过程中,大多还会对模型的函数形式进行逐步调整,以得到较为合理的模型函数形式。

参数取值范围的设定主要根据经济理论或实践经验给出,参数取值范围的设定可用来检验模型参数估计结果的合理性。

5.计量经济学模型中的待估参数有哪些?

答:计量经济学模型的参数包括模型的结构参数和随机误差项的分布参数两大类。模型的结构乘数是包含在模型方程中的反映模型结构特征的参数,每一个结构参数以一个字母(多为希腊字母)表示,例如生产函数模型中的参数A、?、?、?,消费函数中的参数?、?,都是模型的结构参数。随机误差项的分布参数主要是随机误差项的均值和方差。

6.计量经济学模型的检验包括哪几个方面?为什么要进行模型的检验?

答:因为经济现象和过程本身是十分复杂的,理论模型的整个建立过程,从模型设定到参数估计,都可能存在一定的偏误。在模型设定过程中,可能由于所依据的经济理论对研究对象的解释不充分,或者由于自身对研究对象的认识的欠缺,导致变量选择的偏差或模型函数形式设定的错误;在模型参数估计过程中,可能由于样本数据的统计错误、代表性差,或者由于其他信息的不可靠,导致参数估计值与真实值存在较大差距。此外,无论是单方程计量经济学模型,还是联立方程计

2

量经济学模型,都是建立在一定的假设前提下的,如果模型的建立违背了计量经济学的基本假设,也会导致错误的结果。对模型的检验通常包括经济意义经验、统计推断检验、计量经济检验、模型预测检验四个方面。

7.如何利用计量经济学模型进行政策评价?

答:政策评价是将经济目标作为被解释变量,将经济政策作为解释变量,利用计量经济学模型对各种可供选择的经济政策方案的实施后果进行模拟测算,从中选择较好的政策方案。

计量经济学模型用于政策评价,主要有三种方法:

1)工具——目标法。给定经济目标,即给定被解释变量的取值,通过对模型求解,确定解释变量的取值,即确定具体的经济政策方案。

2)政策模拟。将各种不同的政策方案代入模型,计算各自的目标值,通过对目标值的比较决定经济政策方案的取舍。

3)最优控制方法。将计量经济学模型与最优化方法结合起来,选择使目标达到最优的政策或政策组合。

8.计量经济学模型中的被解释变量和解释变量、内生变量和外生变量是如何划分的?

答:在单方程计量经济学模型中,按照因果差异,将变量分为被解释变量(explained variable)与解释变量(explanatory variable)。被解释变量是模型的分析研究对象,是具有某种概率分布的随机变量,也称为“因变量”或“应变量”(dependent variable)、“回归子”(regressand)等。解释变量是分析研究对象的主要影响因素,是确定性的变量,也称为“自变量”(independent variable)、“回归元”(regressor)等。

在联立方程计量经济学模型中,按是否由模型系统决定,将变量分为内生变量(endogenous variables)和外生变量(exogenous variables)两大类。内生变量是由模型系统决定同时可能也对模型系统产生影响的变量,是具有某种概率分布的随机变量,外生变量是不由模型系统决定但对模型系统产生影响的变量,是确定性的变量。

9.计量经济学模型中包含的变量之间的关系主要有哪些?

答:计量经济学模型中变量之间的关系主要是解释变量与被解释变量之间的因果关系,包括单向因果关系、相互影响关系、相互影响关系。

1)单向因果关系

经济变量之间的单向因果关系是单方程计量经济学模型研究的对象,指经济变量之间存在单向的内在联系,一个(一组)经济变量的水平直接影响或决定另一个经济变量的水平。

2)相互影响关系

经济变量之间的相互影响关系是联立方程计量经济学模型研究的对象,指变量之间存在双向的因果关系,即一变量的变化既引起另一变量的变化,反过来也受另一变量变化的影响。

3)相互影响关系

恒等关系是一种特殊的变量关系,实际上通常就是一些变量的定义,例如,储蓄等于可支配收入减去消费。恒等关系是变量之间的确定关系,不需要针对它们进行分析。

10.什么是行为方程、技术方程、制度方程、定义方程、平衡方程?各举一例说明。

答:方程是关于变量之间关系的表达式,计量经济学模型中的方程分为随机方程、恒等方程两大类。随机方程主要包括行为方程、技术方程、制度方程等,恒等方程主要包括定义方程、平衡方

3

程等。

行为方程是反映居民、企业、政府经济行为的随机方程。如描述居民消费与收入等的关系的消费函数方程,反映居民的消费行为,是一个行为方程;

技术方程是反映客观经济技术关系的随机方程。如描述产出与投入要素之间关系的生产函数方程,反映一定生产技术条件下投入要素与产出之间的技术关系,是一个技术方程;

制度方程是反映政府政策、规定的随机方程。如描述税收与课税对象数额、税率之间关系的税收函数方程,反映政府的税收规定,是一个制度方程;

定义方程是反映经济学或经济统计学对经济变量的定义的恒等方程。以宏观经济学对国内生产总值的定义为例,按生产法,国内生产总值等于第一产业、第二产业、第三产业的增加值之和;

平衡方程是反映经济变量之间的某种平衡关系的恒等方程。如描述某种产品的供给等于需求的方程,反映该种产品的市场供需均衡,是一个平衡方程。

11.什么是单方程模型、联立方程模型、时间序列模型?三者之间的关系如何?

答:单方程模型(single-equation model)是只含有一个方程的计量经济学模型;联立方程模型(simultaneous-equation model)是由多个方程组成的计量经济学模型;时间序列模型(time series model)是反映经济变量与时间变量之间关系的计量经济学模型。单方程模型、联立方程模型、时间序列模型分别适用于不同的情况和问题,分析方法也有区别。但这三种模型之间也有联系,联立方程模型是由多个单方程模型有机组合而成,单方程模型在联立方程模型中有很多应用,时间序列模型也是一种单方程模型。

12.计量经济学中常用的数据类型有哪些?各举一例说明。

答:根据生成过程和结构方面的差异,计量经济学中应用的数据可分为时间序列数据(time series data)、截面数据(cross sectional data)、面板数据(panal data)和虚拟变量数据(dummy variables data)。

时间序列数据是同一观察对象在不同时间点上的取值的统计序列,可理解为随时间变化而生成的数据。根据统计或观察的时间间隔的不同,时间序列数据有“年度数据”、“季节数据”、“月份数据”之分。比如说年度CPI、季节CPI、月份CPI。

截面数据是许多不同的观察对象在同一时间点上的取值的统计数据集合,可理解为对一个随机变量重复抽样获得的数据。例如,以某100个居民家庭为样本,研究居民家庭的消费与收入之间的关系,这100个家庭的完整的收入和消费数据就是一个截面数据。

面板数据是结合了时间序列数据和截面数据特征的数据,是多个观察对象在不同时间点上的取值的统计数据集合。例如,以某100个居民家庭为样本,研究从1990—2005年居民家庭的消费与收入之间的关系,这16年来的100个家庭的完整的收入和消费数据就是一个面板数据。

虚拟变量数据是人为设定的虚拟变量的取值。例如人的性别分为女性和男性,可以用0和1来表示。

13.什么是数据的完整性、准确性、可比性、一致性?

答:1)完整性,指模型中所有变量在每个样本点上都必须有观察数据,所有变量的样本观察数据都一样多。

2)准确性,指样本数据必须准确反映经济变量的状态或水平。数据的准确性与样本数据的采集直接相关,通常是研究者所不能控制的。

3)可比性,指数据的统计口径必须相同,不同样本点上的数据要有可比性。

4

4)一致性,指母体与样本即变量与数据必须一致。

14.计量经济学作为一门独立的经济学科正式诞生的标志是什么? 答:计量经济学作为一门独立的学科,一般认为正式诞生于二十世纪三十年代初,其标志是:1930年挪威经济学家弗里希(R.Frisch)、荷兰经济学家丁伯根(J.Tinbergen)、美国经济学家费歇尔(I.Fisher)等在美国俄亥俄州克里夫兰组织成立世界计量经济学会(Econometric Society);1933年世界计量经济学会会刊《计量经济学》(Econometrica)创刊。

15.试论计量经济学在经济学科中的地位。

答:理论与方法的迅速发展和在经济活动实践中的广泛应用,使计量经济学在经济学科中占有了十分突出的地位。一般认为,1969年诺贝尔经济学奖的设立,标志着经济学已成为一门科学。在经济学走向科学化的过程中,计量经济学起了特殊作用,因而1969年的首届诺贝尔经济学奖授予了创立计量经济学的弗里希和丁伯根。据统计,在历届诺贝尔经济学奖获得者中,有2/3以上是计量经济学家,有10位直接因为对计量经济学发展的贡献而获奖;有近20位担任过世界计量经济学会会长;有30余位在获奖成果中应用了计量经济学。为此,第二届诺贝尔经济学奖得主美国著名经济学家萨缪尔森评价说:“第二次世界大战后的经济学是计量经济学时代”;第十二届诺贝尔经济学奖得主美国著名经济学家克莱因评价说:“计量经济学已经在经济学科中居于最重要的位置”。

第二章 一元线性回归模型

1.什么是相关分析?什么是回归分析?相关分析与回归分析的关系如何?

答:相关分析(correlation analysis)是研究变量之间的相关关系的形式和程度的一种统计分析方法,主要通过绘制变量之间关系的散点图和计算变量之间的相关系数进行。

回归分析(regression analysis)是研究不仅存在相关关系而且存在因果关系的变量之间的依存关系的一种分析理论与方法,是计量经济学的方法论基础。

相关分析与回归分析既有联系又有区别。联系在于:相关分析与回归分析都是对存在相关关系的变量的统计相关关系的研究,都能测度线性相关程度的大小,都能判断线性相关关系是正相关还是负相关。区别在于:相关分析仅仅是从统计数据上测度变量之间的相关程度,不考虑两者之间是否存在因果关系,因而变量的地位在相关分析中是对等的;回归分析是对变量之间的因果关系的分析,变量的地位是不对等的,有被解释变量和解释变量之分。

2.随机误差项在计量经济学模型中的作用是什么?

答:计量经济学是研究经济变量之间存在的随机因果关系的理论与方法,其中对经济变量之间关系的随机性的描述通过引入随机误差项(stochastic error)的方式来实现。

一个经济变量通常不能被另一个经济变量完全精确地决定,需要引入随机误差项来反映各种误差的综合影响,主要包括:

1)变量的内在随机性的影响;

2)解释变量中被忽略的因素的影响; 3)模型关系设定误差的影响;

4)变量观察值的观察误差的影响; 5)其他随机因素的影响。

5

3.什么是总体回归函数?什么是总体回归模型?

答:给定解释变量条件下被解释变量的期望轨迹称为总体回归曲线(population regression curve),或总体回归线(population regression line)。描述总体回归曲线的函数称为总体回归函数(population regression function)。

对于只有一个解释变量X的情形,总体回归函数为

E(Y/Xi)?(fXi)表示对于解释变量X的每一个取值Xi,都有被解释变量Y的条件期望E(Y/Xi)与之对应,是X的函数。 E(Y/Xi)对于含有多个解释变量X1、X2、?、Xk的情形,总体回归函数为

E(Y/X1i,X2i,?,Xki)?(fX1i,X2i,?,Xki)表示对于解释变量X1、X2、?、Xk的每一组取值X1i、X2i、?、Xki,都有被解释变量Y的条件期望

E(Y/X1i,X2i,?,Xki)与之对应,E是X1、X2、?、Xk的函数。 (Y/X1i,X2i,?,Xki)引入了随机误差项,称为总体回归函数的随机设定形式,也是因为引入了随机误差项,成为计量经济学模型,称为总体回归模型(population regression model)。

4.什么是样本回归函数?什么是样本回归模型?

答:由于总体中包含的个体的数量往往非常多,总体回归函数的具体形式一般无法精确确定,是未知的,通常只能根据经济理论或实践经验对总体回归函数进行合理的假设,然后根据有限的样本观察数据对总体回归函数进行估计。根据样本数据对总体回归函数作出的估计称为样本回归函数(simple regression function)。

引入样本回归函数中的代表各种随机因素影响的随机变量,称为样本残差项、回归残差项或样本剩余项、回归剩余项,简称残差项或剩余项(residual),通常用ei表示。在样本回归函数中引入残差项后,得到的是随机方程,成为了计量经济学模型,称为样本回归模型。

5.线性回归模型中“线性”的含义是什么?

答:线性函数和通常意义下的线性函数不同,这里的线性函数指参数是线性的,即待估参数都只以一次方出现,解释变量可以是线性的,也可以不是线性的。

例如

2?,n Yi??0??1lnXi??i i?1,,Yi??0??1X1i??222?,n X2i????kXki??i i?1,,32?,n Yi??0??1X1i??(X1i/X2i?8)????(Xki?X2i)??i i?1,,2k都是线性回归模型。

2?,n Yi??0??1Xi??i i?1,,2Yi??0?(?1??0)X1i?12?22?,n X2i????kXki??i i?1,,2?,n ?kXki??i i?1,,Yi??0??1X1i?ln?2X2i???都不是线性回归模型。

6

6.为什么要对模型提出假设?一元线性回归模型的基本假设有哪些?

答:线性回归模型的参数估计方法很多,但各种估计方法都是建立在一定的假设前提之下的,只有满足假设,才能保证参数估计结果的可靠性。为此,本节首先介绍模型的基本假设。

一元线性回归模型的基本假设包括对解释变量的假设、对随机误差项的假设、对模型设定的假设几个方面,主要如下:

1)解释变量是确定性变量,不是随机变量。

2)随机误差项具有0均值、同方差,且在不同样本点之间是独立的,不存在序列相关,即

E(?i)?0 i?1,2,?,n Var(?i)?? i?1,,2?,n

2Cov(?i,?j)?0 i?j i,j?1,,2?,n

3)随机误差项与解释变量不相关。即

Cov(Xi,?i)?0 i?1,2,?,n

4)随机误差项服从正态分布,即

?i~N(0,?) i?1,2,?,n2

5)回归模型是正确设定的。

这5条假设中的前4条是线性回归模型的古典假设,也称为高斯假设,满足古典假设的线性回归模型称为古典线性回归模型(classical linear regression model)。

7.参数的普通最小二乘估计法和最大似然估计法的基本思想各是什么?

答:普通最小二乘法(ordinary least squares,OLS)是最常用的参数估计方法,其基本思想是使样本回归函数尽可能好地拟合样本数据,反映在图上,就是要使样本散点偏离样本回归直线的距离总体上最小。在样本容量为n的情况下,就是要使n个样本点的被解释变量的估计值与实际观察值的偏差总体上最小。为避免残差的正负抵消,同时考虑计算处理上的方便,最小二乘法以

nmin?ei

i?12表示被解释变量的估计值与实际观察值的偏差总体上最小,称为最小二乘准则。

最大似然法(maximum likelihood,ML),也称为最大或然法或极大似然法。最大似然法的基本思想是使从模型中取得样本观察数据的概率最大,就是说把随机抽取得到的样本观察数据看作是重复抽取中最容易得到的样本观察数据,即概率最大,参数估计结果应该反映这一情况,使得到的模型能以最大概率产生样本数据。

8.普通最小二乘参数估计量和估计值各有哪些性质?

答:在满足基本假设情况下,一元线性回归模型的普通最小二乘参数估计量是最佳线性无偏估计量。

用普通最小二乘法估计得到的一元线性回归模型的样本回归函数具有如下性质:

????X; ???(Y 、X)1. 样本回归线过样本均值点,即点满足样本回归函数Yi01i 7

??Y; 2. 被解释变量的估计的均值等于实际值的均值,即Yn3. 残差和为零,即?ei?0;

i?1n4. 解释变量与残差的乘积之和为零,即?Xiei?0;

i?1n?e?0。 5. 被解释变量的估计与残差的乘积之和为零,即?Yiii?19.随机误差项方差的普通最小二乘估计和最大似然估计各是什么?是否是无偏估计? 随机误差项的方差的普通最小二乘估计量为

n???2?ei?12in?2

是一个无偏估计量。

随机误差项的方差的最大似然估计量为

???21n2i?eni?1

与普通最小二乘估计量不同,随机误差项的方差的最大似然估计量是一个有偏估计量。

10.什么是拟合优度?什么是拟合优度检验?拟合优度通过什么指标度量?为什么残差平方和不能作为拟合优度的度量指标?

答:拟合优度指样本回归线对样本数据拟合的精确程度,拟合优度检验就是检验样本回归线对样本数据拟合的精确程度。

样本残差平方和是一个可用来描述模型拟合效果的指标,残差平方和越大,表明拟合效果越差;残差平方和越小,表明拟合效果越好。但残差平方和是一个绝对指标,不具有横向可比性,不能作为度量拟合优度的统计量。

所以拟合优度检验的度量指标是通过残差平方和构造的决定系数来进行检验的。决定系数公式是:

R?2ESSTSS?1?RSSTSS

与残差平方和不同,决定系数R2是一个相对指标,具有横向可比性,因此可以用作拟合优度检验。

11.一元线性回归模型的普通最小二乘参数估计量的分布如何?

? 、??满足线性性,可表示为被解释变量Y的线性组答:由于?0 、?1的普通最小二乘估计量?i018

? 、??也服从正态分布。 合,所以?01所以

n??N(? ,? 00?i?1nXi2???N(? , ?) ?11n22i?12)

2in?xii?1?x????00n进行标准化变换可得

????00??SE(?0)?N(0,1) (1)

2?i?1nXi2?2n?xii?1????11?)SE(?1?????11?n2?N(0,1) (2)

?xi?12i

其中,随机误差项?i的方差?2的真实值未知,只能用其无偏估计量

n???2?ei?12in?2

? 、??的方差和标准差的估计量分别称为?? 、??的?2替代?2后得到的?替代。用无偏估计量?0101??样本方差和样本标准差,样本方差和样本标准差可分别用 Var、SE表示,即

n?(??)?Var0?i?1nXi2?a?)?? V(r??122??n2

2in?xii?1?xi?1?2替代?2后,式(1)用?、(2)中的统计量服从自由度为n?2的t分布,将替代后的统计量

分别记为t0 、t1,有

t0?????00???SE(?0)????00n?(tn-2)

2?i?1nXi2??2n?xii?1 9

t1????SE(?1)????11????11??n2?(tn-2)

?xi?12i

12.什么是变量显著性检验?

答:一元线性回归模型中,?1是否显著不为0,反映解释变量对被解释变量的影响是否显著,所以常针对原假设H0 :?1?0,备择假设H1 :?1?0,进行检验,称为变量显著性检验。原假设为H0 :?1?0,备择假设为H1 :?1?0时,根据原假设

t1??(tn-2)

??SE(?1)??1对于给定的显著性水平?,查自由度为n?2的t分布临界值,并计算t1的值,如果

t1?[?t?,t?]

22接受原假设H0 :?1?0,认为解释变量对被解释变量的影响不显著;反之,如果

t1?t?

2则拒绝原假设H0 :?1?0,接受备择假设H1 :?1?0,认为解释变量对被解释变量的影响显著。

13.为什么被解释变量总体均值的预测置信区间比个别值的预测置信区间窄?

(Y/X0)答:被解释变量的总体均值E的波动,主要取决于样本数据的抽样波动。被解释变量的

个别值Y0的波动,除受样本数据的抽样波动的影响外,还受随机误差项?i的影响。反映在式?(Y?(e)?)(2-50)、式(2-51)中,SE,总体均值的预测置信区间窄于个别值的预测置信区?SE00间。

14.由1981—2005年的样本数据估计得到反映某一经济活动的计量经济学

模型,利用模型对2050年该经济活动的情况进行预测,是否合适?为什么?

答:因为在解释变量的样本均值X处,样本观察数据的代表性往往较好,即抽样波动往往较小,

(Y/X0)被解释变量的总体均值E和个别值Y0的波动较小。反之,解释变量X的取值偏离X的

距离越大,样本观察数据的代表性往往越差,即抽样波动往往越大,被解释变量的总体均值

E(Y/X0)和个别值Y0的波动越大。由此可见,用回归模型作预测时,解释变量的取值不宜偏离

10

解释变量的样本均值X太大,否则预测精度会大大降低。

所以利用模型对2050年的经济活动的情况进行预测不合适。

15.在一元线性回归模型Yi??0??1Xi??i中,用不为零的常数?去乘每一个X值,对参数?0与?1的估计值、Y的拟合值、残差会产生什么样的影响?如果用不为零的常数?去加每一个X值,又会怎样?

????X?e,则有 解答:记原总体模型对应的样本回归模型为Yi??01ii???1?xy?xi2ii??Y???X , ?01Y的拟合值与残差分别为

????X ???Yi01i????X) ei?Yi?(?01i*记X??Xi,则有

X*??Xn**i??X

x?Xi?X**??xi

记新总体模型对应的样本回归模型为

?0???1Xi*?ei* Yi??则有

?1???xy?(x)*ii*2i???xy??xi2i2i?1??xy?xi2ii??1??1

?于是在新的回归模型下,Y的拟合值与残差分析分别为

?0?Y???1X?Y??*1??X??? ?1?X?Y??10*??1???X??????X ?????Y??X??i01i01i01i?*??1???X*)?Y?(?????X) ?0???1Xi*)?Yi?(?ei?Yi?(?01ii01i?可见,用不为零的常数?去乘每一个X值,?1的估计值变为原来的1合值与模型的残差不变。

?, ?0的估计值、Y的拟

11

如果记

Xi?Xi??, xi?xi

**于是新模型的回归参数分别为

?1???xy?(x)*ii*2i??xy?xi2ii? ??1?(X*??)?Y???X*??????????? ?0?Y???1X*?Y???11101在新的回归模型下,Y的拟合值与残差分别为

?????)???(X??)??????X ????0???1Xi*?(?Yi011i01i*?????)???(X??)]?Y?(?????X) ?0???1Xi*)?Yi?[(?ei?Y?(?011ii01i可见,如果用不为零的常数?去加每一个X值,?0的估计值改变, ?1的估计值、Y的拟合值与模型的残差不变。

16.在一元线性回归模型Yi??0??1Xi??i中,用不为零的常数?去乘每一个Y值,对参数?0、

?1的估计值会产生什么样的影响?如果用不为零的常数?去加每一个Y值,又会怎样? ????X?e,则有 解答:记原总体模型对应的样本回归模型为Yi??01ii???1?xy?xi2ii??Y???X , ?01Y的拟合值与残差分别为

????X ???Yi01i????X) ei?Yi?(?01i*记Y??Yi,则有

Y*??Yn**i??Y

y?Yi?Y**??yi

记新总体模型对应的样本回归模型为

*?0???1Xi?ei* Yi??则有

12

?1???xy?(x)ii*i2??x?y?xi2ii???xy?xi2ii? ???1?X??(Y???X)???? ?0?Y*???1X??Y????110可见,用不为零的常数?去乘每一个Y值,?0、?1的估计值会变为原来的?倍。

如果记

Yi?Yi??, yi?yi

**于是新模型的回归参数分别为

?1???xy?(x)ii*i2??xy?xi2ii? ??1??? ????0?0?Y?*?X?Y???X?1X?Y??????11*可见,用不为零的常数?去加每一个Y值,?0的估计值比原来增大?、?1的估计值不变。

17.(注意:本题的数据有误,需做修改,Y的均值和平方和、X的平方和做了修改)由某公司分

布在12个地区的销售点的销售量(Y)和销售价格(X)数据得出如下结果:

X?621.3 Y?205.6

1212122i?i?1X2i?5564218

?Yi?1?529835

?XYii?1i?1396698

1)建立销售量对价格的一元线性回归方程; 2)求决定系数R2。 解答:1)由已知条件知:

1212?i?1Xi?n?X?7455.6

?Yi?1i?n?Y?2467.2

1212i?(Xi?112?X)(Yi?Y)??(XYii?1i?YXi?YiX?XY)??i?1XiYi?n?XY

?-136173.36又因为

13

1212i?(Xi?1?X)?2?(Xi?12i2?2XiX?X)2?5564216-12?621.3?932053.7

所以

12???1?xyii?112i?2i-136173.36932053.7??0.146?xi?1

??Y???X?205.6?0.146?621.3?296.3098?01所以销售量对价格的一元线性回归方程为:

??296.3098?0.146X Yii2)由于

12RSS??(Yi?1i?)??Yi212?(Yi?12i??Y?2) ?2YiYii??296.3098?0.146X,所以 而Yii12RSS?12?(Yi?122i??Y?2)?2YiYii???Yi?112i???2?YiYii?11212?Y?i?1122i????X)???Yi?2?Yi(?01i2i?1i?112201212?(??i?11221120?X)2??1iXi2?Yi?12i????2??????2?Yi?2?XiYi?12?Xi??0?1?01?i?1i?1i?112?i?1?529835?2?296.3098?2467.2?2?0.146?1396698 ?12?296.3098?2?296.3098?0.146?7455.6+0.146?5564218?2683.7161212i22TSS??(Yi?1?Y)?2?Yi?122i?nY2?529835-12?205.6?22578.68

所以

R?1?2RSSTSS?1?2683.71622578.68?0.88

18.《华尔街日报1999年年鉴》(The Wall Street Journal Almanac 1999)公布的美国各航空公司业绩统计数据显示,各航空公司航班正点到达比率和每10万乘客投诉次数如表2-9所示。

14

表2-9 美国各航空公司航班正点到达比率和每10万乘客投诉次数

航空公司名称 西南(Southwest)航空公司 大陆(Continental)航空公司 西北(Northwest)航空公司 美国(US Airways)航空公司 联合(United)航空公司 美洲(American)航空公司 德尔塔(Delta)航空公司 美国西部(Americawest)航空公司 环球(TWA)航空公司 航班正点率(%) 81.8 76.6 76.6 75.7 73.8 72.2 71.2 70.8 68.5 投诉率(次/10万乘客) 0.21 0.58 0.85 0.68 0.74 0.93 0.72 1.22 1.25 要求:

1)画出这些数据的散点图;

2)根据散点图确定两变量之间存在什么关系; 3)求投诉率对航班正点到达比率的回归方程; 4)对回归方程的斜率的意义作出解释;

5)如果航班正点率为80%,估计每10万旅客投诉的次数是多少。

解答:1)设投诉率为被解释变量y,航班正点达比率为解释变量x,以y为纵轴,以x为横轴作散点图。

y0.2680.40.60.81.01.2707274x76788082

2)根据散点图可确定两变量之间反向的相关关系,并呈现线性关系。 3)可得回归方程:

?i?6.01783?0.07041?xi y(5.719) (-4.967)

R?0.779

2 15

4)上述的回归结果的斜率表示,航班正点达比率提高1个百分点,那么投诉率会将下降0.07041(次/10万乘客);

5)如果航班正点率为80%,代入到回归方程,可得:

??6.01783?0.07041?80?0.38468(次/10万乘客) y19.我国1979—2004年的国内生产总值与财政收入数据如表2-10所示。

表2-10 我国国内生产总值与财政收入数据 单位:亿元

年份 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 财政收入Y 1146.38 1159.93 1175.79 1212.33 1366.95 1642.86 2004.82 2122.01 2199.35 2357.24 2664.9 2937.1 3149.48 国内生产总值X 4038.2 4517.8 4862.4 5294.7 5934.5 7171 8964.4 10202.2 11962.5 14928.3 16909.2 18547.9 21617.8 年份 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 财政收入Y 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 18903.64 21715.25 26396.47 国内生产总值X 26638.1 34634.4 46759.4 58478.1 67884.6 74462.6 78345.2 82067.5 89403.6 97314.8 105172.2 117390.2 136875.9 要求:

1)建立财政收入随国内生产总值变化的一元线性回归模型;

2)对模型进行检验;

3)若2005年的国内生产总值为155936.8,求2005年财政收入的预测值和预测置信区间(取?=0.05)。 解答:1)建立财政收入随国内生产总值变化的一元线性回归模型:

???482.7?0.1662?X Yii(-0.892) (18.411)

R?0.9339

22)从回归的结果看,模型拟合较好。可决系数为0.9339,表明模型在整体上拟合得非常好。从截距项与斜率项的t检验值看,在5%的显著性水平下,斜率项通过检验,而截距项则不能通过。去掉截距项,重新估计模型,可得新的回归方程:

??0.1602?X Yii(26.42)

并且从斜率项的值看,0<0.1602<1,符合实际经济情况。

16

3)若2005年的国内生产总值为155936.8,则2005年财政收入预测的点估计值:

Y2005?0.1602?155936.8? 24984.92

在95%的置信度下,Y2005的预测区间为:

(20700.16,29269.68)

第三章 多元线性回归模型

1.多元线性回归模型的基本假设有哪些?在多元线性回归模型的参数估计量的无偏性、有效性的证明中各用了哪些?

解答 多元线性回归模型的基本假设也包括对解释变量的假设、对随机误差项的假设、对模型设定的假设几个方面,主要如下:

(k?1)阶1)解释变量是确定性变量,不是随机变量,解释变量之间不相关,即X矩阵是n?非随机矩阵,X矩阵列满秩

Rank(X)?k?1

据此,有

Rank(X?X)?k?1

矩阵X?X非奇异。

2)随机误差项具有0均值、同方差,且在不同样本点相互独立,不存在序列相关性,即

E(?i)?0 i?1,2,?,n Var(?i)?? i?1,,2?,n

2Cov(?i ,?j)?0 i?j i?1,,2?,n

用矩阵形式表示为

??1??2E(?)? E??????n(?1)??E????E(?2)?????0 ???????E(?)n??? Cov(?)? E{???E(?)]???E(?)]?}?E(???)

??2?0??????00??2??0?0??0?2??I ???2??3)解释变量与随机误差项不相关,即

Cov(Xji ,?i)?0 j?1,,2?,k i?1,2,?,n

4)随机误差项服从正态分布,即

17

2?i?N(0,?) i?1,,2?,n

用矩阵形式可表示为

??N(0,?I)

25)回归模型是正确设定的。

同一元线性回归模型,在这5条假设中,前4条假设是古典假设,若前两条假设满足,第3

条假设自然满足,并且由第2条假设有

E(?i)?? i?1,2,?,n E(?i?j)?0 i?j i?1,2,?,n22

在证明参数估计量的无偏性时,利用了解释变量非随机或与随机干扰项不相关的假定;在证明参数估计量的有效性时用到了随机干扰项同方差且无序列相关的假定。

2.对于多元线性回归模型Yi??0??1X1i??2X2i????kXki??i,证明 (1)E(Yi)??0??1X1i??2X2i????kXki 2(2)Var(Yi)??

(3)Cov(Yi,Yj)?0 i?j

证 (1)由多元线性回归模型的基本假设可知:

E(?i)?0

那么,

E(Yi)?E(?0??1X1i??2X2i????kXki??i)?E(?0)?E(?1X1i)?E(?2X2i)???E(?kXki)?E(?i) ??0??1X1i??2X2i????kXki(2)证明如下:

?Yi??0??1X1i??2X2i????kXki??i?Xj是确定性量 j?1,2,?,k?Var(Yi)?Var(?i)??2

(3)证明如下:

Cov(Yi,Yj)?E[Yi?E(Yi)][Yj?E(Yj)]?E(?i?j)?0

3.在多元模型中,为何要对决定系数进行调整?调整的决定系数R2与F的关系如何? 解答 在多元线性回归模型中,因为决定系数R2随解释变量数目的增加而增大(或至少不变),所以不能利用决定系数R2进行解释变量数目不同的模型的拟合优度的比较。同时,若以决定系数R2度量模型的拟合优度,还会造成通过增加解释变量数目提高模型拟合优度的倾向,而事实上,解释变量的数目并非越多越好,若增加的解释变量不是被解释变量的重要影响因素,甚至是被解释变量的不相关因素,反而会对模型产生负面影响。正是由于存在这样的缺陷,决定系数R2在多元线性回归模型拟合优度评价方面的作用受到了很大的限制。

22克服决定系数R的上述缺陷的方法,是对决定系数R进行适当的调整,得到调整的决定系数。

18

调整的决定系数R2与F统计量存在下列关系:

R2?1?n?1n?k?1?kF

或 F?

4.t检验、F检验的关系如何?

解答 变量显著性检验(t检验)是针对单个解释变量对被解释变量的影响是否显著所作的检验,检验被检验变量的参数为0是否显著成立;方程显著性检验(F检验)是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,检验被解释变量与解释变量之间的线性关系在总体上是否显著成立。

5.对于多元线性回归模型Yi??1X1i??2X2i????kXki??i (1)求参数的普通最小二乘估计量。

(2)对于该模型,参数的普通最小二乘估计量是否依然满足线性性、无偏性、有效性? (3)对于该模型,是否依然有

nniR/k(1?R)/(n?k?1)22

?ei?1?0

?ei?1iXji?0(j?1,?2,k, )

?eY?ii?1ni?0

-1解答 (1)???(X?X)X?Y

(2)依然满足线性性、无偏性、有效性

nn(3)依然有?ei?0

i?1?ei?1iXji?0(j?1,?2,k, )

?eY?ii?1ni?0

6.证明,在?显著性水平下,当ti?t?时,?i的置信度为1??的置信区间不包括0。

2解答 在?显著性水平下,当|ti|?t?时,即

2|ti|?|??iS??i?|?t?S????t?S 或 ????t?S |?t??|????i?i?i????22i2i2i??t?S?0 或 ???t?S?0 ????i?i???2i2i??t?S,???t?S) 而在1??的置信度下,?i的置信区间是:(???i?i???2i2i??t?S?0时, ?的置信区间的下限大于0; 当??ii??2i??t?S?0时, ?的置信区间的上限小于0; 当??ii??2i 19

??i的置信度为1??的置信区间不包括0。

7.为研究某地家庭书刊消费与家庭收入、户主受教育程度之间的关系,建立了家庭书刊年消费支出Y(元)、家庭月平均收入X1(元)、户主受教育年数X2(年)的模型,用抽样得到的35个家庭的数据估计得

? ? 8.2617 ? 0.0208X ? 1.2698X Yi1i2i t?(3.356763)(?4.237629) (2.965781)R?0.961542 R=0.936783 F?98.523926 n?3522

(1)从经济意义上考察模型的合理性。

(2)在5%的显著性水平上,进行变量显著性检验。

(3)在5%的显著性水平上,进行方程总体显著性检验。

解答 (1)家庭月平均收入越高,家庭书刊年消费支出相应会增加,但不会有收入增加的那么快,所以家庭月平均收入的系数应大于0,小于1;户主受教育年数越多,那么对文化产品的需求也会越多,家庭书刊年消费支出相应会增加,所以其系数大于0。

从经济意义上看,模型参数是比较合理的。 (2)在5%的显著性水平上,查表得 t?(n?k?1)?t0.025(32)?2.036933

2显然,两估计参数计算的t值大于临界值,拒绝它们各自为零的原假设,两变量显著。 (3)在5%的显著性水平上,自由度为(2,32)的F分布的临界值为3.294537,计算的F值大于该临界值,所以拒绝原假设,方程总体显著。

8.(注意:本题数据有误,需修改,回归平方和、总平方和调换了位置)一个二元线性回归模型的回归结果如表3-5所示。

表3-5 回归分析结果

方差来源 来自回归 来自残差 来自总离差 平方和 17058 26783 自由度 32 (1)求样本容量n,残差平方和RSS,回归平方和ESS的自由度,残差平方和RSS的自由度。 (2)求决定系数R2和调整的决定系数R2。

(3)根据以上信息,在给定显著性水平下,可否检验两个解释变量对被解释变量的联合影响是否显著?为什么?

(4)根据以上信息,在给定显著性水平下,可否检验两个解释变量各自对被解释变量的影响是否显著?为什么?

解答 (1)总离差平方和的自由度为n-1,所以样本容量为33。

RSS?TSS?ESS?26783-17058?9725

因为回归平方和的自由度为解释变量个数,所以为2。残差平方和的自由度为n-k-1=30。

20

(2) R2?2ESSRSS?1705826783?0.637

R?1?RSS/(n?k?1)TSS/(n?1)?0.613

(3)因为联合检验的F统计量为:

F?ESS/kRSS/(n?k?1)

根据以上信息,在给定显著性水平下,可检验两个解释变量对被解释变量的联合影响是否显著。

(4)不能。由于无法计算参数的t值。

9.(注意:本题的CES生产函数有误,其中的ln(KLL总值Y、生产资金K、从业人数L的统计数据如表3-6所示。

2)改为(lnK2))某地1981-2005年国内生产

表3-6 某地1981—2005年的国内生产总值及相关数据

年份 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 GDP (亿元) 123.6 125.8 128.5 132.3 138.3 140.7 147.2 155.4 167.0 180.1 213.7 309.9 385.8 时间 变量 1 2 3 4 5 6 7 8 9 10 11 12 13 生产 资金 (亿元) 486.7 512.5 521.8 532.9 550.3 581.9 589.3 601.8 631.9 655.1 667.3 1083.3 1358.9 从业人数 (万人) 386.4 391.2 396.1 401.9 406.3 410.8 414.9 419.5 421.0 425.6 429.7 435.6 451.2 年份 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 GDP (亿元) 406.2 421.3 563.5 710.6 867.9 910.3 1025.4 1287.6 1328.1 1409.1 1582.3 1790.5 时间 变量 14 15 16 17 18 19 20 21 22 23 24 25 26 生产 资金 (亿元) 1500.8 1523.7 1657.8 2378.5 2903.7 3106.7 3218.5 3827.6 4057.1 4355.2 4633.6 4897.4 5721.3 从业人数 (万人) 456.3 461.1 465.4 470.2 473.9 479.4 483.5 489.1 483.1 490.2 498.4 510.1 516.2 1925.7 (1)估计C—D生产函数

Y?A0(1?r)LKe

t???(2)估计线性化后的CES生产函数

lnY?lnA0?tln(1?r)?m?lnL?m(1??)lnK?12?m?(1??)(lnKL)??

2推算各个参数的估计值。

其中,各个参数的含义为:

A0——基期技术水平;

21

r——技术进步率;

t——为时间变量;

?——劳动的贡献份额; ?——资本的贡献份额; m——规模效益参数;

?——分布系数,反映劳动要素的密集程度,0???1; ?——替代参数,??1。

解答(1)C—D生产函数两边取对数,可得:

lnY?lnA0?ln(1?r)?t???lnL???lnK??

估计结果为:

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 5.09725 7.09089 0.719 0.4798 T 0.03217 0.01383 2.325 0.0297 * ln(L) -1.05635 1.20352 -0.878 0.3896 ln(K) 0.95463 0.05794 16.475 7.34e-14 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.05453 on 22 degrees of freedom Multiple R-squared: 0.9974, Adjusted R-squared: 0.997 F-statistic: 2774 on 3 and 22 DF, p-value: < 2.2e-16 于是,取对数后的C—D生产函数的样本回归方程为:

??5.09725?0.03217?t?1.05635?lnL?0.95463?lnK lnY据此可进一步求得原模型中的参数

A0?er?e5.09725?163.57146670.03217

?1?0.032693048原模型的估计结果为

Y?163.57(1?0.033)Lt?1.05635K0.95463e

?(2)估计线性化后的CES生产函数

EViews估计结果为:

Dependent Variable: LOG(Y) Method: Least Squares Date: 10/23/08 Time: 23:26 Sample: 1981 2006 Included observations: 26 Variable C T

Coefficient 5.634821 0.033007

Std. Error 9.243949 0.016729

t-Statistic 0.609569 1.973047

Prob. 0.5487 0.0618

22

LOG(L) LOG(K) LOG(K/L)*LOG(K/L) R-squared

Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 可见

-1.157663 0.965137 -0.003508 1.637611 0.126710 0.037374 -0.706922 7.616883 -0.093867 0.4874 0.0000 0.9261 0.996194 -2.762956 -2.521014 1986.622 0.000000 0.997364 Mean dependent var 6.006157 0.996862 S.D. dependent var 0.055802 Akaike info criterion 0.065392 Schwarz criterion 40.91843 F-statistic 1.860419 Prob(F-statistic) logA0?5.6348 log(1?r)?0.033 m???1.1577 m(1??)?0.9651 12?m?(1??)?0.0035

为此

A0?431121.816 r?0.079 m?0.1926 ??6.011 ???0.0012

(注:存在多重共线性问题,所以参数估计结果的经济意义不合理) 10.某商品的需求函数为

? lnYi?92.3?0.46lnX1i?0.18lnX2i (0.126) (0.032) (3.651) (?5.625)R?0.983 R?0.976 F?581 22

其中,Y为需求量,X1为消费者收入,X2为该商品价格。 (1)解释参数的经济意义。

(2)若价格上涨10%将导致需求如何变化?

(3)在价格上涨10%情况下,收入增加多少才能保持需求不变。 (4)解释模型中各个统计量的含义。

解答(1)由样本方程的形式可知,X1的参数为此商品的收入弹性,表示X2的参数为此商品的价格弹性。

(2)由弹性的定义知,如果其它条件不变,价格上涨10%,那么对此商品的需求量将下降1.8%。

(3)根据同比例关系,在价格上涨10%情况下,为了保持需求不变,收入需要增加0.46×0.018= 0.00828,即0.828%。

(4)第一行括弧里的数据0.126、0.032是参数估计量的样本标准差,第二行括弧里的数据3.651、-5.625是变量显著性检验的t值,t值较大,说明收入和价格对需求的影响显著.

R、R、 F分别是决定系数、调整的决定系数、方程显著性检验的F值,这三个统计量的取

22值较大,说明模型的总体拟合效果较好。

11.表3-5给出了1960—1982年7个OECD国家的能源需求指数Y、实际GDP指数X1、能源价

23

格指数X2,所有价格指数均以1973年为基准(1973年为100)。

表3-7 1960-1982年7个OECD国家的能源需求指数及相关数据

年份 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 能源需求指数 54.1 55.4 58.5 61.7 63.6 66.8 70.3 73.5 78.3 83.3 88.9 91.8 实际GDP指数 54.1 56.4 59.4 62.1 65.9 69.5 73.2 75.7 79.9 83.8 86.2 89.8 能源价格指数 111.9 112.4 111.1 110.2 109.0 108.3 105.3 105.4 104.3 101.7 97.7 100.3 年份 1972 1973 1974 1975 1876 1877 1978 1979 1980 1981 1982 能源需求指数 97.2 100.0 97.3 93.5 99.1 100.9 103.9 106.9 101.2 98.1 95.6 实际GDP指数 94.3 100.0 101.4 100.5 105.3 109.9 114.4 118.3 119.6 121.1 120.6 能源价格指数 98.6 100.0 120.1 131.0 129.6 137.7 133.7 144.5 179.0 189.4 190.9 资料来源:Organization for Economic Co-operation and Development

(1)建立能源需求的对数函数模型lnYi??0??1lnX1i??2lnX2i??i,解释各回归系数的意义,用P值检验各解释变量是否显著、方程是否显著。

(2)建立能源需求的线性函数模型Yi??0??1X1i??2X2i??i,解释各回归系数的意义,用P值检验各解释变量是否显著、方程是否显著。

(3)比较所建立的两个模型,如果两个模型的结论不同,你将选择哪个模型?为什么?根据你选定的模型,估计实际GDP指数为98.6、能源价格指数为121.5时能源需求指数的数值,构造该估计值的95%的置信区间。

解答(1)根据题意,建立能源需求的对数函数模型,回归结果如下:

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 1.54950 0.09011 17.20 1.89e-13 *** log(X1) 0.99692 0.01911 52.17 < 2e-16 *** log(X2) -0.33136 0.02431 -13.63 1.39e-11 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01801 on 20 degrees of freedom Multiple R-squared: 0.9941, Adjusted R-squared: 0.9935 F-statistic: 1694 on 2 and 20 DF, p-value: < 2.2e-16

根据上面的结果,自由度为(3,20)的F统计量的P值小于2.2e-16,因此在给定显著性水平5%,从整体上看,样本方程总体上的线性关系是显著的。同理ln(X1)和ln(X2)两项参数估计量的P值小于0.05,所以在给定显著性水平5%,均通过变量显著性检验。

于是,样本回归方程为:

24

??1.55?0.997?ln(X)?0.331?ln(X) lnY12??0.997,根据回归结果,参数?说明在其他变量不变的条件下,实际GDP指数每上升1%,1就会使能源需求指数上升0.997%,与理论模型中描述的实际GDP指数与能源需求指数之间存在

???0.331,正相关关系相一致;参数?说明在其他变量不变的条件下,能源价格指数每下降1%,2就会使能源需求指数上升0.331%,与理论模型中描述的能源价格指数与能源需求指数之间存在负

?|?1,这理论模型能源产品一般是缺乏弹性的相一致。 相关关系相一致,并且|?2

(2)根据题意,建立能源需求的线性函数模型,回归结果如下:

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 28.25506 1.42149 19.88 1.21e-14 ***

X1 0.98085 0.01945 50.42 < 2e-16 *** X2 -0.25843 0.01528 -16.91 2.59e-13 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.435 on 20 degrees of freedom Multiple R-squared: 0.9939, Adjusted R-squared: 0.9933 F-statistic: 1627 on 2 and 20 DF, p-value: < 2.2e-16

根据上面的结果,自由度为(3,20)的F统计量的P值小于2.2e-16,因此在给定显著性水平5%,从整体上看,样本方程总体上的线性关系是显著的。同理ln(X1)和ln(X2)两项参数的P值小于0.05,所以在给定显著性水平5%,均通过变量显著性检验。

于是,样本回归方程为:

??28.256?0.981?X?0.259?X Y12??0.981,说明在其他变量不变的条件下,实际GDP指数每增加1,根据回归结果,参数?1就会使能源需求指数上升0.981,与理论模型中描述的实际GDP指数与能源需求指数之间存在正

???0.259,说明在其他变量不变的条件下,能源价格指数每下降1,相关关系相一致;参数?2就会使能源需求指数上升0.259,与理论模型中描述的能源价格指数与能源需求指数之间存在负相关关系相一致。

(3)比较所建立的两个模型,两个模型均通过了方程和变量显著性检验,但是第一个模型的可决系数为0.9941,调整的可决系数为0.9935,比第二个模型都高;并且对数模型的系数有着特殊的经济含义,代表了弹性系数,所以如果两个模型的结论不同,将选择第一个模型。

根据所选定的模型,当估计实际GDP指数为98.6、能源价格指数为121.5时,代入到方程中,

??93.31,进一步可算得其95%的置信区间为: 求得能源需求指数的预测值的估计值Y0 25

(89.77 , 96.99)

12.设定模型Yi??0??1X1i??2X2i??3X3i??i,研究我国“税收收入Y”受“国内生产总值

、“财政支出X2”、“商品零售价格指数X3”的影响,据《中国统计年鉴》得到的样本数据X1”

如表3-5所示。

表3-8 我国税收收入及相关数据

年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 税收收入 (亿元) 519 538 572 630 700 776 947 2041 2091 2140 2390 2727 2822 2990 3297 4255 5127 6038 6910 8234 9263 10683 12582 15301 17636 20017 24166 28779 国内生产总值 (亿元) 3645 4063 4546 4892 5323 5963 7208 9016 10275 12059 15043 16992 18668 21782 26924 35334 48198 60794 71177 78973 84402 88677 99215 10955 120333 135823 159878 183085 财政支出 (亿元) 1122 1282 1299 1138 1230 1410 1701 2004 2205 2262 2491 2824 3084 3387 3742 4642 5793 6824 7938 9234 10798 13188 15887 18903 22053 24650 28487 33930 商品零售价格指数(%) 100.7 102.0 106.0 102.4 101.9 101.5 102.8 108.8 106.0 107.3 118.5 117.8 102.1 102.9 105.4 113.2 121.7 114.8 106.1 100.8 97.4 97.0 98.5 99.2 98.7 99.9 102.8 100.8 (1)估计模型参数、随机误差项的方差。

(2)检验模型,包括经济意义检验、拟合优度检验、变量显著性检验、方程显著性检验。 解答(1)根据题意,建立线性函数模型,回归结果如下:

Coefficients:

Estimate Std. Error t value Pr(>|t|)

26

(Intercept) -3.757e+03 1.181e+03 -3.181 0.00402 ** X1 5.738e-03 3.233e-03 1.775 0.08863 . X2 8.124e-01 1.874e-02 43.343 < 2e-16 *** X3 3.471e+01 1.101e+01 3.152 0.00432 ** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 348.3 on 24 degrees of freedom Multiple R-squared: 0.9982, Adjusted R-squared: 0.998 F-statistic: 4452 on 3 and 24 DF, p-value: < 2.2e-16

由上面的结果知,随机误差项的标准差的最小二乘估计为348.3,所以其方差:

?2?121333.7 ?(2)模型检验 1. 经济意义检验

根据经济学理论知,国内生产总值的增加,会扩大税基,增加税收收入,二者呈正相关关系,

??5.738e-03?0,与理论模型是一致的;对于第二个参数,增加财政支出,根据宏观而参数?1经济学有关理论,扩张性的财政政策会扩大需求,增加产出水平,继而增加税收收入,但是一般

??0.8124?1,与理论模型中描述是一致来说,税收的增加不会超过财政支出,所以参数0??2的;对于第三个参数,商品零售价格指数的上升,会扩大从价税,增加税收收入,二者应呈正相??0.3471?1,关关系,而且一般从价税率不会大于1,所以参数0??与实际经济情况是一致的。 32. 统计推断检验

1)拟合优度检验

由表中数据可以看出,本例中的决定系数R?0.9982,调整的决定系数为R?0.998,说明模型对样本的拟合效果较好,解释变量能对被解释变量99.8%的离差做出了解释。

2)方程显著性检验——F检验

给定显著性水平??0.05,F统计量值为4452,p值< 2.2e-16,所以拒绝原假设,接受备择假设,认为在5%的显著性水平下,Y对X1、X2和X3有显著的线性关系,回归方程是显著的,即解释变量 “国内生产总值X1”、“财政支出X2”、“商品零售价格指数X3”联合起来对被解释变量“税收收入Y”有显著影响。

3)变量显著性检验——t检验

给定显著性水平??0.05,由(1)中回归结果可以看出, 除了解释变量 “国内生产总值X1”外,其余两个解释变量的p值< 0.05。这表明解释变量“财政支出X2”和“商品零售价格指数X3”都在95%的置信水平下对被解释变量“税收收入Y”影响显著,都通过变量的显著性检验。

22 27

第四章 随机解释变量问题

1. 随机解释变量的来源有哪些?

答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。

2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果? 答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS估计得到的参数估计量是有偏且非一致的估计量。

3. 选择作为工具变量的变量必须满足那些条件?

答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。 4.对模型

Yt=β0+β1X1t+β2 X2t +β3 Yt-1+μt

假设Yt-1与μt相关。为了消除该相关性,采用工具变量法:先求Yt关于X1t与 X2t回归,得到?,

Yt再做如下回归:

Yt=β0+β1X1t+β2 X2t +β3?+μt

Yt-1试问:这一方法能否消除原模型中Yt-1与μt的相关性? 为什么?

解答:能消除。在基本假设下,X1t,X2t与μt应是不相关的,由此知,由X1t与X2t估计出的?Y应与μt不相关。

5.对于一元回归模型 Yt=β0+β1Xt*+μt

假设解释变量Xt*的实测值Xt与之有偏误:Xt= Xt*+et, 其中et是具有零均值、无序列相关,且与Xt*及μt不相关的随机变量。试问:

(1) 能否将Xt= Xt*+et代入原模型,使之变换成Yt=β0+β1Xt+νt后进行估计? 其中,νt为变换后模型的随机干扰项。

(2) 进一步假设μt与et 之间,以及它们与Xt*之间无异期相关,那么E(Xt-1νt)=0成立吗?Xt与Xt-1相关吗?

(3) 由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计?

解答:(1)不能。因为变换后的模型为 Yt=β0+β1Xt+(μt-β

1

tet)

显然,由于et与Xt同期相关,则说明变换后的模型中的随机干扰项νt=μt-β相关。

(2) E(Xt-1νt)=E[(Xt-1*+et-1)( μt-β

1

1

et与Xt同 期

et)]

28

= E(Xt-1*μt)-β1E(Xt-1*et)+E(et-1μt) -β1E(et-1et)=0

多数经济变量的时间序列,除非它们是以一阶差分的形式或变化率的形式出现,往往具有较强的相关性,因此,当Xt与Xt-1直接表示经济规模或水平的经济变量时,它们之间很可能相关;如果变量是一阶差分的形式或以变化率的形态出现,则它们间的相关性就会降低,但仍有一定程度的相关性。

(3) 由(2)的结论知,E(Xt-1νt)=0,即Xt-1与变换后的模型的随机干扰项不相关,而且Xt与Xt-1

有较强的相关性,因此,可用Xt-1作为Xt的工具变量对变换后的模型进行估计。

6.一个对某地区大学生就业增长影响的简单模型可描述如下: gEMPt=β0+β1gMINIt+β2gPOPt+β3gGDP1t+β4gGDPt+μt

式中,EMP为新就业的大学生人数,MINI为该地区最低限度工资,POP为新毕业的大学生人数,GDP1为该地区国内生产总值,GDP为该国国内生产总值;g表示年增长率。

(1) 如果该地区政府以多多少少不易观测的却对新毕业大学生就业有影响的因素作为基础来选择最低限度工资,则OLS估计将会存在什么问题?

(2) 令MIN为该国的最低限度工资,它与随机扰动项相关吗?

(3) 按照法律,各地区最低限度工资不得低于国家最低工资,哪么gMIN能成为gMINI的工具变量吗?

解答:(1) 由于地方政府通常是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低限度工资水平,但模型中并不包含这些因素,而是被归结到了模型的随机干扰项中,因此gMINI与μ不仅异期相关,而且很可能是同期相关的,这将引起OLS估计量的偏误,甚至当样本容量增大时也不具有一致性。

(2) 全国最低限度工资的制定主要根据全国整体的情况而定,因此gMINI基本与上述 模型的随机扰动项无关。

(3) 由于地方政府在制定本地区最低工资水平时往往会考虑全国最低工资水乎要求,因 此gMINI与gMIN具有较强的相关性。结合(2)知gMIN可以作为gMINI的工具变量使用。

第五章 多重共线性

1.什么是多重共线性? 产生多重共线性的经济背景是什么? 答:对于多元回归模型:

Yi??0??1Xi1??X2i2????kXki??i i?1,2,?,n

如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。

产生多重共线性的经济背景是,经济变量在时间上有共同变化的趋势和经济变量之间较强的相关性。另外,当模型中包含解释变量与其滞后解释变量时,由于解释变量本身前后期相关,也会产生多重共线性。

2.多重共线性的危害是什么? 为什么会造成这些危害?

-1-1

答:当存在完全的多重共线性时,模型的参数将无法估计,因为参数估计量(X'X)X'Y中的(X'X)将不存在;当多重共线性程度很高时,(X'X)的分母将变得很小,因此参数估计量的方差?2(X'X)

-1

-1

将变大,相应的t统计量值变小,显著性检验也失去意义,模型预测失去意义;另外,解释变量的参数不再反映各自与被解释变量之间的关系,而是反映它们对解释变量的共同影响,因而参数

29

失去了应有的经济含义。

3.检验多重共线性的方法思路是什么? 有哪些克服方法?

答:检验多重共线性的思路是通过各种方法来检验解释变量之间是否存在显著的相关关系。

多重共线性的克服方法有很多,主要可以由以下几种:利用逐步回归法排除引起共线性的变量、差分法、减少参数估计量的方差、利用先验信息改变参数的约束形式、增加样本容量等。 4.在研究生产函数时,得到以下两种结果:

1nY?t=-5.04 + 0.8871nKt + 0.8931nLt (A) S.E.= (1.40) (0.087) (0.137) R2=0.878 n=21

1nY?t=-8.57 + 0.0272t + 0.4601nKt + 1.2851nLt (B) S.E.= (2.99) (0.020) (0.333) (0.324) R2=0.889 n=21 其中,Y=产量,K=资本,L=劳动,t=时间,n=样本容量。 请回答:

(1) 验证模型(A)中所有的系数在统计上都是显著的(5%); (2) 验证模型(B)中t和lnK的系数在统计上不显著(5%); (3) 可能什么原因造成了(B)中lnK的系数不显著;

(4) 如果t与lnK的相关系数为0.98,你将如何判断并能得出什么结论? 解答: (1) 模型(A)中三个系数对应的t统计量分别为:

?5.041.400.8870.0870.8930.137=-3.6 =10.195 =6.5182

查t分布临界值表得t0.025(18)=2.101,模型(A)中三个系数t统计量的绝对值均大于临界值2.101,因此所有的回归系数在统计上都是显著的。

(2) 模型(B)中t和lnK的系数对应的t统计量分别为:

0.324查t分布临界值表得t0.025(17)=2.11,模型(B)中t和lnK的系数对应的t统计量绝对值均小于临界

0.02720.0204=1.3333

0.460=1.4193

值2.11,因此回归系数在统计上不显著。

(3) 造成模型(B)中lnK系数不显著的原因是由于新变量t的引入,t与lnK之间可能存在严重的多重共线性。

(4) t与lnK的相关系数为0.98,表明两者相关程度很高,模型(2)存在严重的多重共线性。 5.某地区供水部门利用最近15年的用水年度数据得出如下估计模型:

?=-326.9 + 0.305HO + 0.363PO – 0.005RE – 17.87PR – 1.123RA W (-1.7) (0.9) (1.4) (-0.6) (-1.2) (-0.8)

R=0.939 F=38.9

其中,W(Water)—用水总量(百万立方米),HO(House)—住户总数(千户),PO(Population)—总人口(千人),RE(Revenue)—人均收人(元),PR(price)—价格(元/100立方米),RA(rain)—降雨量(毫米)。

(1) 根据经济理论和直觉,预计回归系数的符号是什么(不包括常量)? 为什么? 观察符号与你的直觉相符吗?

230

(2) 在10%的显著性水平下,请进行变量的t检验与方程的F检验。t检验与F检验结果有相矛盾的现象吗?

(3) 你认为估计值是①有偏的;②无效的或③不一致的吗? 详细阐述理由。

解答: (1) 在其他变量不变的情况下,一城市的人口越多或房屋数量越多,则对用水的需求越高。所以可期望HO和PO的符号为正;收入较高的个人可能用水较多,因此RE的预期符号为正,但它可能是不显著的;如果水价上涨,则用户会节约用水,所以可预期PR的系数为负;如果降雨量较大,则草地和其他花园或耕地的用水需求就会下降,所以可以期望RA的系数符号为负。从估计的模型看,除了RE之外,所有符号都与预期相符。

(2) t统计量检验单个变量的显著性,F统计量检验回归方程总体线性显著与否,是联合检验。 这里t检验的自由度为15-5-1=9,在10%的显著性水平下的临界值为1.833。可见,所有参数估计值的t值的绝对值都小于该值,所以即使在10%的显著水平下这些变量也不是显著的。

这里,F统计值的分子自由度为5,分母自由度为9。10%显著性水平下F分布的临界值为2.61。显然计算的F值大于该临界值,表明回归系数是联合显著的。

t检验与F检验结果相矛盾可能是由于多重共线性造成的。HO、PO、RE都是高度相关的,这将使它们的t值降低且表现为不显著。PR和RA不显著另有原因。根据经验,如果一个变量的值在样本期间没有很大的变化,则它对被解释变量的影响就不能很好地被度量。通常情况下水价与年降雨量在各年中没有太大变化,所以它们的影响很难度量。

(3) 多重共线性往往表现的是解释变量间的样本相关现象,在不存在完全共线性的情况下,近似共线并不意味着基本假定的任何改变,所以OLS估计量的无偏性、一致性和有效性仍然成立,即仍是BLUE估计量。但共线性会导致参数估计值的方差大于不存在多重共线性的情况。

第六章 异方差性

1. 判断正误,并说明理由。 解答

(1) 错。当存在异方差时,OLS 估计量是无偏的但不具有有效性。 (2) 对。如果存在异方差,通常的T检验和F检验是无效的。

(3) 错。实际情况是可能高估也可能低估。 (4) 对。通过残差对其他相应的变量的观察值描图,了解变量与残差之间是否具有可以观察到的系统模式,可以用来判断数据中是否存在异方差。 (5) 对。随机误差的异方差性通常与模型中的解释变量相关,因此异方差性检验不能独立于误

差项和某一变量相关的假定。

(6) 对。如果模型存在设定误差,则可能出现随机误差的方差与解释变量相关的情况,OLS

残差就会表现出明显的系统模式。

2. 简述异方差对下述各项的影响。

解答 由于异方差性的存在,使得OLS估计量仍然是线性无偏但不再有最小方差性,即不再有效;而由于相应的置信区间以及T检验和F检验都与估计的方差相关,因此会造成建立的置信区间以及T检验和F检验都不再是可靠的。

3. 解答

(1) 方程(6-40)表明,当N增加一个单位时,平均而言工资W增加0.009个单位.如果用N乘上方程

31

(6-41)两边,结果就类似于(6-40).

(2) 作者显然担心回归方程存在异方差问题,因为他用N去除原来的方程两边.这意味则作者假定随机误差好项方差与N的平方成比例.因此作者在(6-41)中采用了加权最小二乘估计.

(3)方程(6-40)的截距系数就是方程(6-41)中的斜率系数,而方程(6-40)中的斜率系数就是方程(6-41)中的截距系数.

(4) 不能,因为两个模型中的被解释变量不同. 4.解答

(1) 在一元线性回归模型中,已知有

^?1??xyii?x2i??1??x?ii?xi2i

因此有

^E(?)?E(?)?11?x?x2iE(?)?i?1

2^Var(?)?Var(?)?Var(11?x?i2i?xi?)?????2??x??xi?iVar(?)?ixx??x?xij2i?ji2jCov(?,?)ij??x?i22i2?2?xi?

(2) 由(1)中结果得到

^Var(?)?1?x?Ki22i??xi2?2???xK?x?xi22ii22i

而在同方差下,

?,它与异方差时的方差相差一个乘子?xKVar(?)?1?x?x^i22i22.如果Ki?1,则

?0,则异方差

ii该乘子大于1,则这样异方差时随机误差项方差大于同方差时的方差;而如果1?时随机误差项方差小于同方差时的方差. 5 解答

Ki(1) 他们假设了随机误差项方差与GNP的平方成比例.他们通过检查各个时期的数据观察到了这种关系.

(2) 结果基本上是相同的,尽管在第二个回归方程中两个系数的标准差比较低.但这仍然表明对异方差进行转换仍然是合理的.

(3) 不能,这里的R平方不能直接进行比较,因为两个模型中的被解释变量是不同的. 6 解答

(1) 首先建立居民人均消费支出与可支配收入的线性回归模型

32

Yi??0??X1i??i

对该模型OLS估计的结果如下:

^Yi?272.3635(2) 异方差性检验 首先做G-Q检验

?0.755125Xi

(1.705713) (32.38690) R^2=0.983129 F=1048.912 N=20

对20个样本按X从大到小排列,去掉中间4个观测值,对前后两个样本进行OLS估计,样本容量均为8.

第一个子样本回归结果为:

^Yi?212.2118?0.761893Xi

(0.3997) (12.625)

R^2=0.96372,F=159.39, N=8, RSS1=615472.0 第二个子样本回归结果为:

^Yi?1277.161?0.554126Xi

(0.829) (1.779287)

R^2=0.345, F=3.1658, N=8, RSS2=126528.3

根据上面两个子样本回归得到的残差平方和,我们可以计算F统计量: F?RSS1/(8?1?1)RSS2/(8?1?1)?615472.0/6126528.3/6?4.86

在5%的显著性水平下,自由度为(6,6)的F分布临界值为4.28,于是拒绝无异方差性假设,表明原模型存在异方差性。

其次采用怀特检验。在对原模型进行OLS估计后,做残差序列平方,然后做辅助回归。用该残差序列平方对常数项、X的一次项和二次项进行回归,得到该辅助回归方程中的拟合优度和对应的拉格朗日乘子统计量(这些操作只要在对原模型进行OLS回归后,选择View/Residual Tests/White Heteroskedasticity就可已完成)。由辅助回归得到的LM统计量等于12.65213,伴随概率为0.001789.这表明在5%的显著性水平下,原模型存在异方差。 (3)采用对数线性模型进行估计,结果如下:

^

Yi?0.25?0.946Xi

(0.94) (31.4)

R^2=0.98 F=985 n=20 对该回归结果进行怀特检验,得到LM=2.48,伴随概率为0.29,因此对数模型不存在异方差性问题,这表明通过取对数在一定程度上也可消除异方差问题,因为取对数后数据差异就变小了。

33

第七章 序列相关性

1. 判断正误,并说明理由。

(1)错,当存在序列相关时,OLS估计量仍然是无偏的,但不具有有有效性。 (2)对,应用DW统计量检验检验时仍然假定随机干扰项是同方差的。 (3)错,是假定自相关系数为+1。

(4)对,要比较模型的R^2,两个模型中的变量必须是一样的。 (5)对,这也可能是模型设定误差带来的显著的DW值。

(6)对,因为预测误差涉及到随机误差方差,而存在随机干扰项自相关时,OLS法不能正确估计随机误差方差。

(7)对,这可能是由于模型的误定义带来的显著的DW值。

(8)错,此时只能用B-W g统计量来检验,尽管我们使用了DW表来检验这一假设。 (9)对,写下如下模型:Yt?证。 2 解答

(1) 在一元线性回归模型中,已知有

~?0??X1t??2t??t32??t,对该模型取一阶差分即可得

?1??xytt?x2t??1??x?tt?xt2t

因此有

~E(?)?E(?)?11?x?x2tE(?)?t?1

这里未涉及到随机干扰项的序列相关性。 (2)由(1)知

?x?Var(?)?Var(?)?Var(1?x~i12ii)?1?2?xt?2Var(?x?tt)?

1?

2?xt?2????xtVar(?)?2?tt?s2xt?Cov(,??xsts??由于Var(?)??, Cov(?,?)?t2ts??s?t2

~Var(?)?1?22t?x??2?22?xt?2??t?ss?txxts

34

??22t?x???xt2?2?22n?1(??t?1xxtt?1???xxtt?1n?22t?2?...???t?11n?1xxtt?n?1)

??22t?x?n?1????22?t?1?xt??2?2?xx?xtt?12txx????x2n?2tt?1t?22t?...??n?1xx?x1n?? 2?t???22t?x??22????2?2?xt??n?1n?2tt?12?xxt?1???x2t???xxtt?1t?2?x2t??n?1x1xn?

?...??2??xt??^上式中,右边第一项是无自相关时?的OLS估计?的方差,第二项包含两个因素:随机干扰

11项?的自相关系数?和刻画

t?xxtsXt的序列相关性的

t?s?x2t。

如果

?xxts(a)??0,即?与

tt?s?x2t?0,即?与

t?xxtsXt均存在正序列相关;??0,

t?s?x2t?0

Xt均存在负序列相关,则

~1^1 Var(?)?Var(?)

?xxts(b)??0,即?与

tt?s?x2t?0,即?与

t?xxtsXt均存在正序列相关;??0,

t?s?x2t?0

Xt均存在负序列相关,则

~1^1 Var(?)?Var(?) 3 解答

(1)在模型A中存在序列相关,但在模型B中没有序列相关 。 (2)自相关可能是由于模型A的无定义,因为它排除了二次趋势项。 (3)对于可能的函数形式,我们可能需要从经验知识来判断。 4 解答

一阶自相关指的是随机干扰项的当前值只与自身前一期值之间存在相关性。而DW方法仅适用于解释变量为非随机变量,随机干扰项的产生机制是一阶自相关,回归含有截距项,回归模型不把滞后被解释变量当做解释变量之一,没有缺失数据的情况。根据此定义,可以判断如下:(1)、(2)、

35

(3)、(4)不可以,(5)可以。

5 解答

首先通过OLS法回归得到商品进口方程如下:

^Mt?152.91?0.02GDPt

(2.32) (20.12)

R^2=0.948 SE=154.9 D.W.=0.628

2.进行序列相关检验

~~~从残差et与时间t以及et和et?1的关系图来看,随机干扰项呈现正序列相关性。

4003002001000-100-200-300-400788082848688909294969800RESID014003002001000-100-200-300-400-400-300-200-100EL0100200300E 残差图形 相邻残差关系图

回归检验法

~~~用et对et?1和et?2进行回归得到如下回归方程:

^~~t~e=-1.088+1.11et?1-0.753et?2

(-0.05) (6.26) (-3.83)

~~~T统计量值表明et?1和et?2在5%的显著性水平下对et有显著影响,因此原模型存在二阶自相关。进一步残差三阶自回归结果为:

^~~t~~e=0.64+1.17et?1-0.9et?2+0.136et?3

(0.029)(4.44)(-1.9) (0.33)

~T统计量值表明滞后三期的残差et?3是不显著的,因此模型不存在三阶自相关。 D.W.检验

由原模型OLS回归结果知,D.W.=0.628,在5%显著性水平下,N=24,K=2(含常数项)查表得到下界dl?1.27,上界du?1.27,由于D.W值小于下界,故存在一阶正自相关。

36

拉格朗日乘子检验

含二阶滞后残差项的辅助回归方程为:

^~~t~e=6.59-0.0003GDPt+1.094et?1-0.786et?2

(0.231) (-0.504) (6.231) (-3.692) R^2=0.6614

由上述回归得到LM=22*0.6614=14.55,该值大于显著性水平为5%,自由度为2的?分布的临界值5.991,由此判断原模型存在二阶序列相关性。

进一步可以做含3阶滞后残差的辅助回归,得到辅助回归方程为:

^~2~t~~e=6.692-0.0003GDPt+1.108et?1-0.819et?2+0.032et?3

(0.228) (-0.497) (4.541)(-1.842) (0.087) R^2=0.6615

因此LM=21*0.6615=13.89,该值大于显著性为5%,自由度为3的?分布的临界值7.815,仍然

~2表明原模型存在序列相关性,但由于et?3的参数不显著,说明不存在3阶序列相关性。 3自相关处理,运用科奥迭代法估计原模型得到回归结果为:

^Mt=169.32+0.020GDPt+1.108AR(1)-0.801AR(2)

(3.81) (18.45) (6.11) (-3.61) R^2=0.982 ,调整的R^2=0.979, D.W=1.85

其中AR(1),AR(2)前的系数为随机干扰项的1阶与2阶序列相关系数。在5%的显著性水平下,D.W>du?1.66(22个样本),表明经广义差分后的模型不存在序列相关性。与OLS回归结果比较,截距项有差别,但斜率系数没有差别。

37

第八章 虚拟变量模型

1. 回归模型中引入虚拟变量的作用是什么?

答: 在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。

2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?

答: 在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。

3.什么是虚拟变量陷阱?

答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。

4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。试设定适当的模型,并导出如下情形下学生消费支出的平均水平: (1) 来自欠发达农村地区的女生,未得到奖学金; (2) 来自欠发达城市地区的男生,得到奖学金; (3) 来自发达地区的农村女生,得到奖学金;

(4) 来自发达地区的城市男生,未得到奖学金。

解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:

Yi=β0+β1Xi+μi 其他定性因素可用如下虚拟变量表示: D1= D3= 1 来自发达地区 1 男性

D= 0 来自欠发达地区 4 0 女性 1 有奖学金 1 来自城市

D2= 0 无奖学金 0 来自农村

则引入各虚拟变量后的回归模型如下:

Yi=β0+β1Xi+?1D1i+?2D2i+?3D3i+?4D4i+μi 由此回归模型,可得如下各种情形下学生的平均消费支出: (1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出: E(Yi|= Xi, D1i=D2i=D3i=D4i=0)=β0+β1Xi

(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:

38

E(Yi|= Xi, D1i=D4i=1,D2i=D3i=0)=(β0+?1+?4)+β1Xi

(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:

E(Yi|= Xi, D1i=D3i=1,D2i=D4i=0)=(β0+?1+?3)+β1Xi

(4) 来自发达地区的城市男生,未得到奖学金时的月消费支出:

E(Yi|= Xi,D2i=D3i=D4i=1, D1i=0)= (β0+?2+?3+?4)+β1Xi

5. 研究进口消费品的数量Y与国民收入X的模型关系时,由数据散点图显示1979年前后Y对X的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。

(1) 试向模型中加入适当的变量反映经济体制变迁的影响。 (2) 写出模型的设定形式。

答:(1) 在经济发展发生转折时期,可以通过引入虚拟变量方法来表示这种变化。设虚拟变量为:

1 1979年以前 D1979= 0 1979年以后 (2) 模型设定为:

Yt=β0+β1Xt+β2D1979+β3D1979 Xt +μt

6.根据美国1961年第一季度至1977年第二季度的季度数据,我们得到了如下的咖啡需求函数的回归方程:

?t=1.2789-0.1647lnPt+0.5115lnIt+0.1483lnP?t-0.0089T-0.0961D1t-0.1570D2t-0.0097D3t lnQ (-2.14) (1.23) (0.55) (-3.36) (-3.74) (-6.03) (-0.37) R2=0.80

其中:Q—人均咖啡消费量;P—咖啡的价格(以1967年价格为不变价格);I—人均收入;P?—

茶叶的价格(以1967年价格为不变价格);T—时间趋势变量(1961年第一季度为1,??,1977年第二季度为66);

1 第一季度 1 第二季度 1 第三季度

D1t= D2t= D3t= 0 其他 0 其他 0 其他 = 试回答下列问题:

(1) 模型中P、I和P?系数的经济含义是什么? (2) 咖啡的价格需求是否很有弹性? (3) 咖啡和茶是互补品还是替代品? (4) 如何解释时间变量T的系数?

(5) 如何解释模型中虚拟变量的作用?

(6) 哪一个虚拟变量在统计上是显著的(0.05)? (7) 咖啡的需求是否存在季节效应?

解答:(1) 从回归模型来看,P的系数-0.1647表示当咖啡的价格增加1%时,咖啡的需求量减少0.1647%,是咖啡需求的价格弹性系数;I的系数0.5115表示的是咖啡需求量对收入的弹性,即当收入增加1%时,咖啡需求量将增加0.5115%;P?的系数0.1483表示的是咖啡需求量对茶叶

= = 39

的交叉价格弹性系数,即当茶叶的价格增加1%时,咖啡需求量将增加0.1483%。

(2) 咖啡需求的价格弹性为0.1647小于l,属于缺乏弹性。

(3) 由于交叉价格弹性为正,表明两者是替代品。

(4) 时间T的系数-0.0089, 表示咖啡的需求量在逐年递减。 (5) 虚拟变量的引入反映了季节因素对咖啡需求量的影响。

(6) 在5%的显著性水平下,t统计量的临界值为t0.025(70-8)=1.99,D1与D2系数的t统计量绝对值大于临界值,在统计上是显著的。

(7) 咖啡需求量存在季节效应,第一阶段和第二季度的销售量要少于其他季度。 7.一个由容量为209的样本估计的解释CEO薪水的方程为:

ln(sal?ary)=4.59+0.2571n(sales)+0.01lroe+0.158finance+0.181cosprod-0.283utility

(15.3) (8.03) (2.75) (1.775) (2.130) (-2.895)

其中,salary表示年薪水(万元)、sales表示年收入(万元)、roe表示公司股票收益(万元);finance、consprod和utility均为虚拟变量,分别表示金融业、消费品工业和公用事业,对比产业为交通运输业。

(1) 解释三个虚拟变量参数的经济含义;

(2) 保持sales和roe不变,计算公用事业和交通运输业之间估计薪水的近似百分比差 异。这个差异在1%的显著水平上是统计显著的吗?

(3) 消费品工业和金融业之间估计薪水的近似百分比差异是多少? 写出一个使你能直接检验这个差异在统计上是否显著的方程。

解答:(1) finance的参数的经济含义为:当销售收入与公司股票收益保持不变时,金融业的CEO要比交通运输业的CEO多获薪水15.8个百分点。其他两个可类似解释。

(2) 公用事业和交通运输业之间估计薪水的近似百分比差异就是以百分数解释utility的参数,即为28.3%。由于参数的t统计值为-2.895,它大于1%显著性水平下自由度为203的t分布的临界值1.96,因此这种差异是统计上显著的。

(3) 由于消费品工业和金融业相对于交通运输业的薪水百分比差异分别为15.8%与18.1%,因此它们间的差异为18.1%-15.8%=2.3%。一个能直接检验这一差异是否显著的方程为

ln(salary)= β0+β11n(salse)+β2 roe +β3+?1consprod+?2utilty+?3trans+μ

其中,trans为交通运输业虚拟变量。这里对比基准为金融业,因此?1表示了消费品工业与金融业薪水的百分数差异,其t统计值可用来进行显著性检验。

第九章 滞后变量模型 1. 什么是滞后现象?产生滞后现象的原因主要有哪些?

答:解释变量和被解释变量的因果联系可能不在同一时间发生,在这一过程中通常有时间滞后,解释 变量需要通过一段时间才能完全作用于被解释变量。由于经济活动的连续性,被解释变量的当前变化往往 受到自身过去取值水平的影响。被解释变量受自身或其它经济变量前期水平的影响称为滞后现象。 产生滞后现象主要是由于经济变量自身、决策者心理、技术和制度的原因。

40

2. 为什么要建立滞后变量模型? 答:建立滞后变量模型主要基于以下几个因素:(1)由于社会经济的发展、经济行为的形成与演变在很 大程度上都与前期的经济活动密切相关,滞后变量模型可以更全面、客观地描述经济现象,提高模型的拟 合程度。(2)滞后变量模型可以反映过去的经济活动对现期经济行为的影响,从而描述了经济活动的运动过 程,使模型成为动态模型。(3)滞后变量模型可以模拟分析经济系统的变化和调整过程。

3. 滞后变量模型有哪几种类型? 分布滞后模型使用 OLS 估计参数存在哪些问题? 可用何种方法进行 估计? 答:滞后变量模型有分布滞后模型和自回归模型两大类,前者只有解释变量及其滞后变量作为模型的 解释变量,不包含被解释变量的滞后变量作为模型的解释变量;而后者则以当期解释变量与被解释变量的 若干期滞后变量作为模型的解释变量。分布滞后模型有无限期的分布滞后模型和有限期的分布滞后模型: 自回归模型又以 Koyck 模型、自适应预期模型和局部调整模型最为多见。 分布滞后模型使用 OLS 法存在以下问题:(1)对于无限期的分布滞后模型,由于样本观测值的有限性, 使得无法直接对其进行估计。(2)对于有限期的分布滞后模型,使用 OLS 方法会遇到:没有先验准则确定滞 后期长度,对最大滞后期的确定往往带有主观随意性:如果滞后期较长,由于样本容量有限,当滞后变量 数目增加时,必然使得自由度减少,将缺乏足够的自由度进行估计和检验;同名变量滞后值之间可能存在 高度线性相关,即模型可能存在高度的多重共线性。 对有限期分布滞后模型常使用经验加权法和 Almon 多项式法估计参数,对无限期分布滞后模型常使用 Koyck 方法,对自回归模型常使用工具变量法或 OLS 法估计参数。

4.什么是经验加权估计法? 常见的权数有哪几种? 这种方法的特点是什么? 答:经验加权估计法是用于有限期分布滞后模型的一种修正估计方法。该方法是根据实际问题的特点, 以及人们的经验给各滞后变量指定权数,并按权数构成各滞后变量的线性组合,形成新的变量,再进行估 计。 常用的权数类型有三类:递减型、矩形和倒 V 型。

该方法的优点是简单易行、不损失自由度、避免多重共线性和参数估计具有一致性等。缺点是设置权 数的主观随意性较大,要求对实际问题的特征具有比较透彻的了解。通常的做法是多选几组权数分别进行 估计,根据检验统计量选取最佳方程。

5.Koyck 模型、自适应预期模型和局部调整模型有何异同? 模型估计会存在哪些困难?如何解决? 答:Koyck 模型是由无限期分布滞后模型通过 Koyck 变换后得出的一阶自回归模型;如果被解释变量 主要受某个预期变量的影响,预期变量的变化满足白适应预期假设,则被解释变量的变化可以用自适应预 期模型来描述;在另一些经济活动中,为了适应解释变量的变化,被解释变量有一个预期的最佳值与之对 应,即解释变量的现值影响被解释变量的预期值,被解释变量的期望值是同期解释变量线性函数的模型称 为局部调整模型。 三种模型的最终形式都可以转化为一

41

阶自回归模型。区别主要有两个方面:一是导出模型的经济背景 与思想不同;二是由于模型形成机理不同导致随机干扰项结构不同,给模型估计带来一定影响。Koyck 模 型和自适应预期模型不满足古典假定,解释变量与随机干扰项同期相关,普通最小二乘法估计是有偏非一 致估计,可用工具变量法进行估计;自适应预期模型则只存在解释变量与随机干扰项的异期相关,因此普 通最小二乘估计具有一致性。

6.考察以下分布滞后模型: Yt=α+β0Xt+β1Xt-1+β2Xt-2+β3Xt-3+β4Xt-4+β5Xt-5+μt 假如用 Almon 2 阶有限多项式变换估计这个模型后得 ? Y t =0.85+0.50 W0t +0.45 W1t -0.10 W2t

其中: 5 5 5 W0t= ∑ Xt-i, W1t= ∑ i·Xt-i, W2t= ∑ i^2 ·Xt-i i=0 i=0 i=0

(1) 求原模型中各参数的估计值; (2) 试估计 X 对 Y 的短期影响乘数和长期影响乘数。 解答:(1)根据 Almon 系数变换得:

? α=0.85,? β0 =? α0=0.5,? α1=0.45,? α2=-0.10

? β1 =?α0 + ? α 1+? α 2 =0.5+0.45-0.10=0.85 ? β 2=? α 0+2 ? α1 +4?α2=0.5+2×0.45-4×0.10=1 ? β 3=?α0 +3? α 1+9? α2=0.5+3×0.45-9×0.10=0.95 ? β 4=? α0+4? α1+16? α2=0.5+4×0.45-16×0.10=0.7 ? β5 =? α 0+5? α1 +25? α 2=0.5+5×0.45-25×0.10=0.25

(2) X 对 Y 的短期影响乘数为 Xt 的系数 ? β0=0.5;

X 对 Y 的长期影响乘数为各期系数之和 5

∑ ? βi =0.5+0.85+1+0.95+0.7+0.25=4.25; i =0

X 对 Y 的各期延期乘数分别为各滞后变量的系数: ? β1 =0.85,

? β2 =1,

? β3 =0.95 ,

? β4 =0.7 ,

? β5 =0.25。

42

43