(5)提出假设:H0:?1?0,H1:?1?0
由于F?27?F??4.41,拒绝H0,线性关系显著。
?4?5?3?4?17。当??0.05,11.12.(1)当x?4时,yt?2(n?2)?t0.052(20?2)?2.101。y的平均值的95%的置信区间为:
?0?t?2sey(x0?x)21?nn?(xi?x)2i?1
1(4?2)2?17?2.101?1.0??17?1.05052020即(15.95,18.05) (2)预测区间为:
?0?t?2sey(x0?x)211??nn?(xi?x)2i?1
1(4?2)2?17?2.101?1.01???17?2.34902020即(14.65,19.35)
11.13.Excel输出的回归结果如下:
回归统计
Multiple R
R Square
Adjusted R Square 标准误差 观测值 方差分析
回归分析 残差 总计
Intercept X Variable 1
df 0.947663 0.898064 0.881075 108.7575
8
SS
MS
F
Significance F
0.000344
1 625246.3 625246.3 52.86065 6 70969.2 11828.2 7 696215.5
Coefficients 标准误差
t Stat
P-value
-46.2918 64.89096 -0.71338 0.502402
15.23977 2.096101 7.270533 0.000344
???46.2918?15.23977x 得到的线性回归方程为:y当x?40时,E(y)??46.2918?15.23977?40?563.299。当
??0.05,
t?2(n?2)?t0.052(8?2)?2.447。
(2)销售收入95%的置信区间为:
?0?t?2sey(x0?x)21?nn?(xi?x)2i?11(40?24.9375)2 ?563.299?2.447?108.7575?82692.11875?563.299?121.745即(270.65,685.04)。
441.54?E(y40)?685.04。
11.14.回归1残差图:
回归1 残差32.521.510.50-0.50-1-1.5510152025回归1 残差
回归2残差图:
回归2 残差21.510.50-0.5-1-1.505101520回归2 残差
结论:回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是合适的。
回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。
??29.399?1.547x 11.15.(1) 估计的回归方程为:y(2)由于Significance F=0.020?0.05,表明广告费支出与销售额之间的线性关系显著。
(3) 残差图
X Variable 1 Residual Plot10残差0-10-20X Variable 10510152025
从图上看,关于误差项?的假定不满足。 (4)广告费支出x与销售额y关系的散点图:
销售额y60504030201000510152025销售额y
从广告费支出x与销售额y关系的散点图上看,用二次函数或其它曲线模型会更好。
第十二章 多元线性回归
12.1
解释多元回归模型、多元回归方程、估计的多元回归方程的含义。
答:设因变量为y,k个自变量分别为x1,x2,?,xk,描述因变量y如何依赖于自变量x1,x2,?,xk和误差项?的方程y??0??1x1??2x2????kxk??称为多元回归模型。其中,?0,?1,?,?k是模型的参数;?为误差项。
在多元回归模型的基本假定下,因变量y的期望E(y)??0??1x1??2x2????kxk,该式被称为多元回归方程。
回归方程中的参数?0,?1,?,?k是未知的,需要利用样本数据去估计它们。当用
?,??去估计回归方程中的未知参数?,?,?,?时,就得到?,?,?样本统计量?0k0k11????x???x?????x。 ???了估计的多元回归方程y01122kk12.2 多元线性回归模型中有哪些基本假定?
答:(1)误差项?是一个期望值为0的随机变量,即E(?)?0。 (2)对于自变量x1,x2,?,xk的所有值,?的方差?都相同。
(3)误差项?是一个服从正态分布的随机变量,且相互独立,即?~N(0,?)。 12.3 解释多重判定系数和调整的多重判定系数的含义和作用。
答:多重判定系数R2是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。
为避免增加自变量而高估R2,统计学家提出用样本量n和自变量的个数k去调整R2,计算出调整的多重判定系数Ra?1?(1?R)(2222n?1),其意义与R2类似,表示在用样本
n?k?1量和模型中自变量的个数进行调整后,在因变量的变差中被估计的回归方程所解释的比例。
12.4 解释多重共线性的含义。
答:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
12.5 多重共线性对回归分析有哪些影响?
答:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是?i的正负号有可能同预期的正负号相反。
12.6 多重共线性的判别方法主要有哪些? 答:(1)模型中各对自变量之间显著相关。
(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数?i的t检验却不
显著。
(3)回归系数的正负号与预期的相反。
(4)容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小
于0.1,也即VIF大于10时,存在严重的多重共线性。
12.7 多重共线性的处理方法有哪些?
答:(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数
?进行检验;对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。
12.8 在多元线性回归中,选择自变量的方法有哪些? 答:向前选择、向后剔除、逐步回归、最优子集等。 二、练习题