2)写出回归模型的矩阵表示; 3)说明对此模型的古典假定;
4)写出回归系数及随机扰动项方差的最小二乘估计式,并说明参数估计式的性质。 答:1)总体回归函数:Y??1?β2X2?β3X3?u
?X?β?X ??β???样本回归函数:Y122332)写出回归模型的矩阵表示
?Y1??1X21?Y??1X22?2?????????????Yn??1X2nX31?Xk1??β1??u1??β??u?X32?Xk2???2???2?
??????????????X3n?Xkn??βk??un?3)此模型的古典假定:零均值假定;同方差和无自相关假定;随机扰动项与解释变量不相关;无多重共线性假定;随机误差项服从正态分布。 4)回归系数最小二乘估计式:
??2??3yx?x??yx?x???x?x???xx??yx?x??yx?x??x?x???xx?i2i23ii3i22i23i2i3ii3i22ii2i22i23i2i3i2i3i2xx2i3i2
??Y???X???X?12233?随机扰动项方差的最小二乘估计式:σ2e??2in?k
参数估计式的性质:具有线性性、无偏性和最小方差性。
3.2什么是偏回归系数?它与简单线性回归的回归系数有什么不同?
答:多元线性回归模型中,回归系数?j(j=1,2,?,k)表示的是当控制其它解释变量不变的条件下,第j个解释变量的单位变动对被解释变量平均值的影响,这样的回归系数称为偏回归系数。
简单线性回归模型只有一个解释变量,回归系数表示解释变量的单位变动对被解释变量平均值的影响。多元线性回归模型中的回归系数是偏回归系数,是当控制其它解释变量不变的条件下,某个解释变量的单位变动对被解释变量平均值的影响,从而可以实现保持某些控制变量不变的情况下,分析所关注的变量对被解释变量的真实影响。 3.3多元线性回归中的古典假定与简单线性回归时有什么不同? 答:多元线性回归中的古典假定比简单线性回归时多出一个无多重共线性假定。假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。解释变量观测值矩阵X列满秩(k列)。这是保证多元线性回归模型参数估计值有解的重要条件。 3.4多元线性回归分析中,为什么要对可决系数加以修正?修正可决系数与F检验之间有何区别与联系?
答:多元线性回归分析中,多重可决系数是模型中解释变量个数的增函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。可决系数只涉及变差,没有考虑自由度。如果
5
用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。
联系:由方差分析可以看出,F检验与可决系数有密切联系,二者都建立在对应变量变差分解的基础上。F统计量也可通过可决系数计算。对方程联合显著性检验的F检验,实际上也是对可决系数的显著性检验。区别:F检验有精确的分布,它可以在给定显著性水平下,给出统计意义上严格的结论。可决系数只能提供一个模糊的推测,可决系数越大,模型对数据的拟合程度就越好。但要大到什么程度才算模型拟合得好,并没有一个绝对的数量标准。 3.5什么是方差分析?对被解释变量的方差分析与对模型拟合优度的度量有什么联系和区别?
答:被解释变量Y观测值的总变差分解式为:TSS?ESS?RSS。将自由度考虑进去进行方差分析,即得如下方差分析表: 变差来源 源于回归 源于残差 总变差 平方和 自由度 方差 ??Y)2 ESS??(Yi2?RSS??(Yi?Yi) k?1 n?k n?1 ESSk?1 RSSn?k TSS??(Yi?Y) 2方差分析和对模型拟合优度的度量(可决系数)都是在把总变差分解为回归平方和与残
差平方和的基础上进行分析。区别是前者考虑了自由度,后者未考虑自由度。
3.6多元线性回归分析中,F检验与t检验的关系是什么?为什么在作了F检验以后还要作t检验?
答:在多元回归中,t检验是分别检验当其他解释变量保持不变时,各个解释变量X对应变量Y是否有显著影响。F检验是在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。
F检验是对多元回归模型方程整体可靠性的检验,而多元线性回归分析的目的,不仅是要寻求方程整体的显著性,也要对各个参数作出有意义的估计。方程整体线性关系显著并不一定表示每个解释变量对被解释变量的影响是显著的,因此,还必须分别对每个回归系数逐个地进行t检验。
3.7试证明:在二元线性回归模型Y??1?β2X2?β3X3?u中,当X2和X3相互独立时,对斜率系数?2和?3的OLS估计值。等于Y分对X2和X3作简单线性回归时斜率系数的OLS估计值。
答:二元线性回归模型的回归系数?2和?3最小二乘估计式:
??2??3yx?x??yx?x???x?x???xx??yx?x??yx?x??x?x???xx?i2i23ii3i22i23i2i3ii3i22ii2i22i23i2i3i2i3i2xx
2i3i2而当X2和X3相互独立时,X2和X3的斜方差等于零,即:
6
Cov(X2,X3)?E??X2?E?X2???X3?E?X3????E?x2x3?????x2x3??0将
??xx??023n
?(xx)?0代入??232?式中,可得: 和?3??2??3yx?x???x?xyx?x???x?xi2i22ii3i22i23i23i22i23iyx???xyx???xi2i22i
i3i23i所以,当X2和X3相互独立时,对斜率系数?2和?3的OLS估计值。等于Y分对X2和X3作简单线性回归时斜率系数的OLS估计值。
3.8对于本章开始提出的“中国已成为世界汽车产销第一国”,为分析中国汽车产销量的发展,你认为可建立什么样的计量经济模型?
答:分析中汽车市场状况如何,我们可以用销售量观测。其次考虑影响汽车销量的主要因素都有哪些?比如收入、价格、费用、道路状况、能源、政策环境等。可以建立如下模型:
Y??1?β2X2?β3X3?β4X4?u
其中,Y为汽车销售量,X2为居民收入,X3为汽车价格,X4为汽油价格,像其他费用、道路状况、政策环境等次要因素包含在随机误差项u中。
3.9说明用Eviews完成多元线性回归分析的具体操作步骤。 答:1、建立工作文件,建立一个Group对象,输入数据。
2、点击Quick下拉菜单中的Estimate Equation。
3、在对话框Equation Specification栏中键入Y C X2 X3 X4,点击OK,即出现回归结果。
第四章 多重共线性
思考题
4.1 多重共线性的实质是什么?为什么会出现多重共线性?
答:多重共线性包括完全的多重共线性和不完全的多重共线性。多重共线性实质上是样本数据问题,出现了解释变量系数矩阵的线性相关问题。 产生多重共线性的经济背景主要有以下几种情形:
第一,经济变量之间具有共同变化趋势。第二,模型中包含滞后变量。第三,利用截面数据建立模型也可能出现多重共线性。第四,样本数据自身的原因。 4.2 多重共线性对回归参数的估计有何影响?
答:在完全多重共线性情况下,参数的估计值不确定,估计量的方差无限大。在不完全共线性情况下,参数估计量的方差随共线性程度的增加而增大;对参数区间估计时,置信区间趋于变大;严重多重共线性时,假设检验容易做出错误的判断;当多重共线性严重时,可能造
7
成可决系数R较高,经F检验的参数联合显著性也很高,但单个参数t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。
4.3 多重共线性的典型表现是什么?判断是否存在多重共线性的方法有哪些?
答:多重共线性的典型表现是模型拟和较好,但偏回归系数几乎都无统计学意义;偏回归系数估计值不稳定,方差很大;偏回归系数估计值的符号可能与预期不符或与经验相悖,结果难以解释。
具体判断方法有:解释变量之间简单相关系数矩阵法;方差扩大因子法以及一些直观判断法和逐步回归的方法。
4.4 针对出现多重共线性的不同情形,能采取的补救措施有哪些?
答:根据经验,可以选择剔除变量,增大样本容量,变换模型形式,利用非样本先验信息,截面数据和时间序列数据并用以及变量变换等不同方法。也可以采取逐步回归方法由由一元模型开始逐步增加解释变量个数,增加的原则是显著提高可决系数,自身显著而与其他变量之间又不产生共线性。最后,还可以采取岭回归方法来降低多重共线性的程度。
4.5 在涉及相关的宏观经济总量指标如GDP、货币供应量、物价水平、国民总收入、就业人数等时间序列的数据中一般都会怀疑有多重共线性,为什么? 答:原因是这些变量之间通常具有共同变化的趋势。
4.6 多重共线性的产生与样本容量的个数n、解释变量的个数k有无关系? 答:由于多重共线性是一个样本特征,所以可能同样变量的另一组样本共线性程度又没那么
?)?严重。根据方差公式Var(?2?22
?x22iVIF,样本容量越大
?x22i也会增加,从而会减小回
归参数的方差,标准误差也同样会减小。多重共线性与解释变量的个数也有关系,解释变量个数越多,变量之间产生多重共线性的可能性越大。
4.7 具有严重多重共线性的回归方程能否用来进行预测?
答:如果研究的目的仅在于预测Y,而各个解释变量X之间的多重共线性关系的性质在未来将继续保持,这时虽然无法精确估计个别的回归系数,但可以估计这些系数的某些线性组合,因此,多重共线性可能并不是严重问题。
4.8 岭回归法的基本思想是什么,它对降低共线性有何作用?
???)(????)'??2(X'X)?1会增大,答:当解释变量之间存在多重共线性时,X'X?0,则E(???原因是X'X接近于奇异。如果将X'X加上一个正常数对角矩阵kI(k>0,I为单位矩阵),即X'X?kI,使得X'X?kI?0的可能性比X'X?0的可能性更小,那么X'X?kI接近奇异的程度就会比X'X小得多。如此可以得到参数的岭回归估计:?(k)?(X'X?kI)?1X'Y,K是岭回归参数。当解释变量之间存在多重共线性时,岭回归估计比最小二乘估计稳定,当k较小
时,回归系数很不稳定,而当k逐渐增大时,回归系数可能呈现稳定状态。因此,选择合适的k值,岭回归参数会优于普通最小二乘估计参数。当k=0时,岭回归估计等于普通最小二乘估计。
4.9 以下陈述是否正确?请判断并说明理由。
1)在高度多重共线性的情形中,要评价一个或多个偏回归系数的单个显著性是不可能的。 答:正确。 理由:在高度多重共线性的情形中,没有任何方法能从所给的样本中把存在高度共线性的解释变量的各自影响分解开来,从而也就无法得到单个参数显著性检验的t统计量,因此无法
8
~