实验七 多元回归模型(2学时)
一、实验目的和要求
1. 熟练掌握多元线性回归模型的建立方法,掌握并能检验所建立回归方程的显
著性与方程系数的显著性,能根据实际问题作预测与控制;
2.掌握平方和分解公式,会编程求总离差平方和TSS、回归平方和RSS、残差平方和ESS、复相关系数平方等统计量;
3.会根据实际问题对建立多元非线性回归模型,掌握多元线性回归的regress命令格式.
二、实验内容 1.多元线性回归模型
(1)多元线性回归模型
Y??0??1X1??2X2????pXp??——多元线性回归模型
?0,?1?,?p——待定常数,回归系数,?~N(0,?2).
矩阵表示
对Y,X1,X2,?,Xp?1进行n次独立观测,得n组数据
(yi;x1,x2,?,xn,)(i?1,2,?,n)
则有 yi??0??1xi1????pxi,p??i,i?1,2,?,n 其中 ?1,?2,?,?n相互独立,且?i~N(0,?2).
采用矩阵记号
?y1????y2?Y??? ---观测向量
????y??n?n?1?1??1X?????1?x11x21?xn1?x1,p???x2,p??????xn,p???(1,X1,X2,?,Xp)----- 设计矩阵
n?(p?1)??0???1???????2???2?----待估回归参数向量 ε???---随机误差向量 β???????????????p?n?n?1??(p?1)?1Y?Xβ?ε ——多元线性回归模型
(2)参数估计及性质
?1T??(??,??,?,??)?β(XTX)XY----β的最小二乘估计 01pESSYT(I?H)Y??----随机误差项方差?2?D?的无偏估计 ??n?p-1n?p-12??β?X???β?X?Xβ?---回归方程 ??(y?1,y?2,?,y?n)T?βY011pp给出X1,X2,?,Xp,可由Y的观测值和经验回归方程求得Y的预测值. %求回归参数命令
(3)复相关系数及相关性检验
TSS?ESS?RSS—总离差平方和分解
TSS??(yi?y)2 —总离差残差平方和(Total Sum of Squares)
i?1nn?2 —残差平方和(Error Sum of Squares) ?i)???ESS??(yi?y2i?1ni?1n?i?y)2 —回归平方和(Regression Sum of squares) RSS??(yi?1R2?RSSESS?1?——复相关系数平方 TSSTSSR2?1,回归愈越显著.
%求复相关系数平方命令
TSS=sum((y-mean(y)).^2) %计算总离差平方和,y是因变量Y数据 RSS=sum((y1-mean(y)).^2) %计算回归平方和 ESS=sum((y-y1).^2) %计算残差平方和 R2=RSS/ESS; %计算样本决定系数R2=RSS/TSS
(4)回归方程的显著性检验
检验假设:H0:?1??2????p?0?H1:存在1?i?p,?i?0
RSS/(p)MSRH0真统计量 F??~F(p,n?p-1)
TSS/(n?p-1)MSE给出显著性水平?,检验p值p?PH0(F?F0),当F0?F?(p,n?p-1)?p?? 拒绝H0,认为Y与X1,X2,?,Xp?1线性回归显著;否则线性关系不显著. %回归方程显著性检验命令
F=(n-p-1)*SSR/SSE %计算的F统计量,n是样本容量 F1=finv(0.95,p,n-p-1) %查F统计量0.05的分位数 F2=finv(0.99,p,n-p-1) %查F统计量0.01的分位数 p=1-fcdf(F,p,n-p-1) %求检验P值,F是上面计算结果 (5)回归系数的统计推断
检验假设 H0k:?k?0?H1k:?k?0(k?1,2,?,p)
0??????H真????kkkkk??~t(n?p?1) 统计量 tk????ckk?s(?k)s(?k)检验p值p0k?PH0(|tk|?|t0k|)?2PH0(t(n?p?1)?|t0k|) 当p???|t0|?t1??2 (n?p-1),拒绝H0k,认为Y与X线性回归显著;否则不显著.
2?~N(β,?)???ckk 注意:ckk为(XX)-1对角元,?(?kk?ckk),sk%回归系数显著性的t检验命令
T=b1/sqrt(SSE/(n-2))*sqrt(sum((x-mean(x)).^2)) %t统计量观测值to, x是自变量,b1是X的回归系数 T1=tinv(0.975,n-p-1) %t统计量0.05的分位数 T2=tinv(0.995,n-p-1) %t统计量0.01的分位数 p=2-2*tcdf(T,n-p-1) %t检验的p值 (6)预测及统计推断
???),???t(n?p?1)s(??)???k?t?(n?p?1)s(??.kk?k?--?k置信度1-α置信区间?1?1?22??
因变量的点估计和区间估计
T?????x???x???x?0??给出x0,y0的预测值y0101202p?10,p?1?x0β
??SSETT?1??0?t?(n?p?1)y[1?x(XX)x]y0的置信区间 ?00? ?1?n?p?12??4.多元线性回归建模的基本步骤
(1)对问题进行直观分析,选择因变量与解释变量,作出因变量与各解释变量散点图,初步设定多元线性回归模型参数个数;
(2) 多元回归建模命令
输入因变量与自变量的观测数据(y,X), 计算参数的估计 regeress,调用格式有以下三种: (1)b = regress(Y,X)
(2)[b,bint,r,rint,stats] = regress(Y,X) (3)[b,bint,r,rint,stats] = regress(Y,X,alpha) 输入参数:
?1x11?y1?????1x21?y2?Y???因变量观测向量;X?????????y??1xn1?n??显著性水平.
输出参数:
x12x22?xn2?x1p???x2p?矩阵,第一列元素
?????xnp??n?p全为1,第j列是自变量Xj观测向量,对一元线性回归,取p=1即可;alpha为
?1T??(??,??,?,??)?向量b--回归系数估计值β(XTX)XY 01p?1bint--回归系数的(1-alpha)置信区间;
?1??????2????ε?向量r--残差列向量???; ???????n?n?1rint--模型的残差的(1- ?)的置信区间;
stats--用于检验回归模型的统计量,有4个分量值:
第一个是复相关系数平方R2,第二个是F统计量值F0,第三个是与统计量F对应的概率P,当P
?2的无偏估计.
(3)调用命令 rcoplot(r,rint)
绘制残差及置信区间图,分析数据的异常点情况; (4)作显著性检验,若检验通过,则用模型作预测;
(5)对模型进一步研究:如残差的正态性检验、残差异方差检验,残差自相关性检验等.
例3.2.1某销售公司将库存占用资金情况、广告投入的费用、员工薪酬以及销售额等方面的数据作了汇总,该公司试图根据这些数据找到销售额与其他变量之间的关系,以便进行销售额预测并为工作决策提供参考依据. (1)建立销售额的回归模型;
(2)如果未来某月库存资金额为150万元,广告投入预算为45万元,员工薪酬总额为27万元,试根据建立的回归模型预测该月的销售额.
表3.7 占用资金、广告投入、员工薪酬、销售额(单位:万元)
月份 库存资金额(x1) 广告投入(x2) 员工薪酬总额(x3) 销售额(y) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 75.2 77.6 80.7 76 79.5 81.8 98.3 67.7 74 151 90.8 102.3 115.6 125 137.8 175.6 155.2 174.3 30.6 31.3 33.9 29.6 32.5 27.9 24.8 23.6 33.9 27.7 45.5 42.6 40 45.8 51.7 67.2 65 65.4 21.1 21.4 22.9 21.4 21.5 21.7 21.5 21 22.4 24.7 23.2 24.3 23.1 29.1 24.6 27.5 26.5 26.8 1090.4 1133 1242.1 1003.2 1283.2 1012.2 1098.8 826.3 1003.3 1554.6 1199 1483.1 1407.1 1551.3 1601.2 2311.7 2126.7 2256.5
解:(1)建立回归模型
为确定销售额与库存占用资金、广告投入、员工薪酬之间关系,分别作出y与x1,x2,x3散点图,若散点图显示它们之间近似线性关系,可设y与x1,x2,x3关系为三元线性回归模型.
y??0??1x1??2x2??3x3??,?~N(0,?2) 程序:
%输入数据并作散点图(图3.18)
A=[75.2 30.6 21.1 1090.4; 77.6 31.3 21.4 1133 80.7 33.9 22.9 1242.1; 76 29.6 21.4 1003.2 79.5 32.5 21.5 1283.2; 81.8 27.9 21.7 1012.2 98.3 24.8 21.5 1098.8; 67.7 23.6 21 826.3 74 33.9 22.4 1003.3; 151 27.7 24.7 1554.6 90.8 45.5 23.2 1199; 102.3 42.6 24.3 1483.1 115.6 40 23.1 1407.1; 125 45.8 29.1 1551.3 137.8 51.7 24.6 1601.2; 175.6 67.2 27.5 2311.7 155.2 65 26.5 2126.7; 174.3 65.4 26.8 2256.5]; [m,n]=size(A); %读取A的行数(样本容量n)和列数(回归参数个数p) subplot(3,1,1),plot(A(:,1),A(:,4),'+'), xlabel('x1(库存资金额)')
ylabel('y(销售额)') %画3行一列图矩阵,第一张为(X1,Y)散点图 subplot(3,1,2),plot(A(:,2),A(:,4),'*'), xlabel('x2(广告投入)')
ylabel('y(销售额)') % 第二张为(X1,Y)散点图 subplot(3,1,3),plot(A(:,3),A(:,4),'x'), xlabel('x3(员工薪酬)')
ylabel('y(销售额)') %第三张为(X1,Y)散点图
如图3.18,可见销售额y与库存资金、广告投入、员工薪酬具有线性关系,因此可以建立三元线性回归模型.
4000y(销售额)2000060400080100120140x1(库存资金额)160180y(销售额)20000204000253035404550x2(广告投入)55606570y(销售额)20000212223242526x3(员工薪酬)27282930
图3.18销售额与库存、广告、薪酬散点图
% 调用命令regress建立三元线性回归模型
x=[ones(m,1), A(:,1:3)]; % 设计矩阵x第一列全为1,2-3列为X1-X3数据 y=A(:,4) % 读取A第4列Y值
[b,bint,r,rint,stats]=regress(y,x); % 回归模型y因变量,X为设计矩阵 b,bint,stats, % 输出结果 程序运行结果: 1)回归参数估计 b =162.0632 7.2739 13.9575 -4.3996
?,??,???,??)T?(162.0632,7.2739,13.9575,-4.3996)T 得(?0123因此回归方程为
??162.0632?7.2739x1?13.9579x2?4.3996x3 ybint =
-580.3603 904.4867 4.3734 10.1743 7.1649 20.7501 -46.7796 37.9805
得到回归参数?0,?1,?2,?3的95%置信区间分别为
[-580.3603,904.4867],[4.3734,10.1743],[7.1649,20.7501], [-46.7796,37.9805] 2)模型的检验 统计量stats输出结果
stats=0.9574804050 105.0866520891 0.0000000008 10077.9867891125 stats第一列为模型可决系数R2?0.9574804050?1,说明自变量整体和因变量y线性关系显著;第二列为F统计量观测值F0?105.086652?F0.05(4?1,18?4),第三列得到概率p?P{F?F0?0.0000000008}?0.05;最后一列为模型残差平方和ESS?10077.986789.拒绝原假设,认为线性回归模型显著. (2)预测
??162.0632?7.2739x1?13.9579x2?4.3996x3 y求因变量预测值程序:
x0=[1,150,45,27]; %给定自变量一组值,第一项为1
?0 yc=x0*b %求因变量预测值y输出结果: yc =1.7624e+03
?0?1.7624?103 即因变量预测值y方法2 线性回归模型类的类方法
对一元和多元线性回归模型,matlab提供了LinearModel类,用户可以根据观测数据,调研LinearModel类的类方法,创建一个LinearModel类对象,用来求解回归模型。
程序:
A=[75.2 30.6 21.1 1090.4; 77.6 31.3 21.4 1133 80.7 33.9 22.9 1242.1; 76 29.6 21.4 1003.2 79.5 32.5 21.5 1283.2; 81.8 27.9 21.7 1012.2 98.3 24.8 21.5 1098.8; 67.7 23.6 21 826.3 74 33.9 22.4 1003.3; 151 27.7 24.7 1554.6 90.8 45.5 23.2 1199; 102.3 42.6 24.3 1483.1 115.6 40 23.1 1407.1; 125 45.8 29.1 1551.3 137.8 51.7 24.6 1601.2; 175.6 67.2 27.5 2311.7
155.2 65 26.5 2126.7; 174.3 65.4 26.8 2256.5]; >> [n,p]=size(A); %读取A的行数和列数 X=[A(:,1:3)] %X1-X3构成的数据矩阵 y=A(:,4)
mmdl=LinearModel.fit(X,y) %调用LinearModel类的fit方法求解模型 结果输出:
结果输出 mmdl = Linear regression model: y ~ 1 + x1 + x2 + x3
Estimated Coefficients:参数估计表
Estimate SE tStat pValue 参数估计 残差平方 t统计量t0k 检验P值p0k
(Intercept) 162.06 346.15 0.46818 0.64686 x1 7.2739 1.3523 5.3787 9.7273e-05 x2 13.957 3.167 4.4071 0.00059659 x3 -4.3996 19.76 -0.22265 0.82702
以下是关于一些统计量的结果:
Number of observations: 18, Error degrees of freedom: 14 Root Mean Squared Error: 100
R-squared: 0.957, Adjusted R-Squared 0.948
F-statistic vs. constant model: 105, p-value = 7.75e-10
其他结果,点击工作区mmdl,显示很多结果。包括给出3个平方和SSE、SST、SSR及MSE,残差Residuals,因变量拟合Fittde等诸多结果。
说明:1)R2?0.957?1,修正后的复相关系数平方 R2j?0.948?1均认为
X1,X2,X3和y的线性关系显著.
2)F统计量观测值F0?105?F0.05(4?1,18?4),及检验概率
p?P{F?F0?105}?7.75?10-10均拒绝原假设,认为X1,X2,X3和y的线性关系显著.
3)从参数估计表看出
p00?0.64685?0.05, p03?0.82720?0.05认为?0?0??3?0
p01?9.7273e-05?0.05, p02?0.00059659?0.05认为?1?0,?2?0 认为X1,X2与y关系显著,X3与y关系不显著,可进一步考虑是否剔除X3. 此外,该类结果还给出了一系列统计量值,如Fitted---因变量拟合结果,Residual—残差结果,平方和SSE\\SST\\SSR等。
例3.2.3现代服务业是社会分工不断深化的产物,随着经济的发展,科学技术的进步,现代服务业的发展受到多种因素和条件的影响。不仅受到经济总体发展水平的影响,还受到第二产业、就业、投入等因素的影响,从这几个主要方面出发,利用江苏省统计年鉴的有关数据,通过建立多元线性回归模型对1990-2008年各种因素对现代服务业的影响进行回归分析。假如构建如下江苏省服务业增长模型:Y??0??1x1??2x2??3x3??4x4,?~N(0,?2)
Y代表江苏省服务业的增加值(单位:亿元),反映了江苏省服务业发展的总体水平。x1~x4表示影响江苏省服务业发展的四种主要因素和影响,其中x1代表江苏省人均GDP(单位:元),说明江苏省总体经济发展水平对服务业的影响; x2代表江苏省第二产业的增加值(单位:亿元),说明了工业发展对服务业的影响,体现了生产性服务业的需求规模;
x3表示江苏省服务业的就业人数(单位:万人);
x4表示江苏省服务业资本形成总额(单位:亿元),主要体现服务业投资的经济效应。
表3.11 江苏省关于服务业发展及各影响因素相关数据
年份 服务业增加值Y 省人均GDP X1 第二产业增加值 X2 服务业就业人数 X3 服务业资本形成总额 X4 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 37.76 28.13 93.58 160.62 286.58 277.12 387.11 367.16 291.77 280.01 227.61 329.16 385.44 437.02 601.39 704.72 1291.11 1360.09 1769.28 2038 2109 2353 3106 4321 5801 7319 8471 9371 10049 10695 11765 12882 14396 16830 20223 24560 28814 33928 70.24 35.53 101.33 325.34 478.79 588.72 528.49 358.86 337.74 228.24 280.05 515.74 471.57 697.03 1182.62 1650.88 1917.05 1895.8 2055.56 589.74 623.19 640.95 706.39 786.37 855.97 920.45 975.66 1025.22 1102.31 1151.68 1192.02 1263.77 1341.86 1407.63 1443.37 1542.46 1625.06 1713.33 252.01 275.82 330.71 439.32 620.97 858.91 1102.71 1293.43 1370.21 1624.74 1773.37 1903.37 2131.87 2189.78 2686.57 3362.19 3930.56 4628.59 5287.91 解:(1)建立回归模型
Y??0??1x1??2x2??3x3??4x4??,?~N(0,?2)
yi??0??1xi1??2xi2??3xi3??4xi4??i,?i~N(0,?2)
i?1,2,?,n,n=19,p=4
回归分析程序
%输入各影响因素的数据
x0=[2038 70.24 589.74 252.01 2109 35.53 623.19 275.82 2353 3106 4321 5801 7319 8471 9371
101.33 640.95 330.71 325.34 706.39 439.32 478.79 786.37 620.97 588.72 855.97 858.91 528.49 920.45 1102.71 358.86 975.66 1293.43 337.74 1025.22
1370.21 1624.74
10049 228.24 1102.31
10695 280.05 1151.68 11765 515.74 1192.02 12882 471.57 1263.77 14396 697.03 1341.86 16830 1182.62 20223 1650.88 24560 1917.05 33928 2055.56 ];
1773.37 1903.37 2131.87 2189.78
2686.57 3362.19 3930.56 5287.91
1407.63 1443.37 1542.46 1713.33
28814 1895.8 1625.06 4628.59
y=[37.76,28.13,93.58,160.62,286.58,277.12,387.11,367.16,291.77,280.01,227.61,329.16,385.44,437.02,601.39,704.72,1291.11,1360.09,1769.28]'; %Y服务业增加值列向量
[n,p]=size(x0); %矩阵X0的行数即样本容量n,列数即回归变量个数 x=[ones(n,1),x0]; % 构造设计矩阵,第一列为1,后4列为X1-X4 [db,dbint,dr,drint,dstats]=regress(y,x);
% 调用多元回归分析命令,输出回归参数db,回归参数置信区间dbinr,残差dr,残差置信区间drint,及一些统计量dstats 程序运行结果: 1)回归参数的估计 n=19, p=4
输出:db =345.2493 0.1672 0.1962 -0.7012 -0.6537 得到回归参数估计为
T??(??,??,?,??)T?β(345.2493,0.1672,0.1962,-0.7012, -0.6537)4 014所以,服务业增加值Y对4个自变量的线性回归方程为
??345.249?0.1672x1?0.1962x2?0.7012x3?0.6537x4 y回归参数的区间估计结果
dbint =
22.8409 667.6576 ?0的置信区间
0.0731 0.2613 ?1的置信区间为[0.0731, 0.2631] 0.0201 0.3722 ?2的置信区间 -1.1650 -0.2374 ?3的置信区间 -1.2867 -0.0207 ?4的置信区间 2)残差输出结果:
dr =
-83.8119 -59.4867 0.5889 14.6534 82.1633 7.9945 80.5396 64.6092 -72.1976 44.5876 5.7768 -4.5670 73.2709 -79.9409 -46.9710 -136.1633 113.7938 -10.2022
5.3624
T?1,??2,?,??19)??即残差向量ε(??(-83.8119,-59.4867,?,5.3624)T
残差的置信区间结果 drint =
-221.9639 54.3402 即?1的置信区间[-221.9639, 54.3402] -205.9396 86.9662 -151.4255 152.6034 -140.5198 169.8267 -62.4916 226.8182 -144.3484 160.3374 -72.5509 233.6301 -92.9528 222.1712 -214.9770 70.5819 -103.0712 192.2464 -137.4586 149.0121
-162.2339 153.0999 -64.6853 211.2271 -195.3209 35.4392 -191.1233 97.1813 -228.7041 -43.6224 -12.7351 240.3227 -149.3628 128.9584
-85.7809 96.5057 ?19的置信区间[-85.7809, 96.5057] 3)输出 统计量值
dstats = 1.0e+003 * %下列数据要10?103 0.00010 0.1727 0.0000 5.7926
可决系数R2=0.00010接近0, F统计量观测值F0?0.1727,检验P值,
?2?5792.6. p?0.0000<0.05, 残差方差估计值?(2)检验
接上面的程序,在MATLAB命令窗口中继续输入: 1)回归方程的显著性F检验 %计算平方和,进行求复相关系数平方
SST=y'*(eye(n)-1/n*ones(n,n))*y; % 计算总偏差平方和TSS H=x*inv((x'*x))*x'; % 计算对称幂等矩阵H ESS=y'*(eye(n)-H)*y; % 计算ESS RSS=y'*(H-1/n*ones(n,n))*y; % 计算RSS MSR=RSS/p; % 计算MSR MSE=ESS/(n-p-1); %计算MSE %回归方程的F检验程序
F0=(RSS/p)/(ESS/(n-p-1)); % 计算F统计量观测值F0
Fa=finv(0.95,p,n-p-1) % F分布时的临界值F0.95(p,n?p?1)=3.1122 F检验结果
对称幂等阵,即帽子矩阵H H =
Columns 1 through 9
0.2483 0.2257 0.2150 0.1498 0.0946 0.0683 0.0669 0.0750 0.0401 0.2257 0.2089 0.1992 0.1349 0.0824 0.0581 0.0614 0.0768 0.0425
0.2150 0.1992 0.1947 0.1399 0.0909 0.0678 0.0627 0.0662 0.0183 0.1498 0.1349 0.1399 0.1583 0.1563 0.1459 0.1057 0.0514 0.0298 0.0946 0.0824 0.0909 0.1563 0.1876 0.1870 0.1306 0.0474 0.0549 0.0683 0.0581 0.0678 0.1459 0.1870 0.1905 0.1321 0.0440 0.0595 0.0669 0.0614 0.0627 0.1057 0.1306 0.1321 0.1033 0.0594 0.0840 0.0750 0.0768 0.0662 0.0514 0.0474 0.0440 0.0594 0.0834 0.1139 0.0401 0.0425 0.0183 0.0298 0.0549 0.0595 0.0840 0.1139 0.2253 0.0470 0.0674 0.0581 -0.0184 -0.0584 -0.0657 -0.0083 0.0846 0.0684 0.0306 0.0567 0.0555 -0.0280 -0.0757 -0.0831 -0.0262 0.0690 0.0170 -0.0089 0.0117 0.0135 -0.0039 -0.0082 -0.0050 0.0208 0.0625 0.0533 -0.0184 0.0117 0.0154 -0.0405 -0.0688 -0.0688 -0.0205 0.0590 0.0148 -0.1228 -0.1019 -0.1172 -0.0267 0.0604 0.0884 0.1010 0.1044 0.2641 -0.1184 -0.1019 -0.0853 0.0186 0.0919 0.1176 0.0850 0.0275 0.0636 -0.0399 -0.0336 0.0112 0.0574 0.0663 0.0763 0.0228 -0.0538 -0.1913 -0.0486 -0.0566 -0.0342 0.0446 0.0884 0.1073 0.0602 -0.0208 -0.0412 0.0323 0.0217 0.0264 -0.0196 -0.0522 -0.0499 -0.0290 -0.0040 -0.0579 0.0634 0.0349 0.0019 -0.0555 -0.0754 -0.0702 -0.0120 0.0541 0.1409
Columns 10 through 18
0.0470 0.0306 -0.0089 -0.0184 -0.1228 -0.1184 -0.0399 -0.0486 0.0323 0.0674 0.0567 0.0117 0.0117 -0.1019 -0.1019 -0.0336 -0.0566 0.0217 0.0581 0.0555 0.0135 0.0154 -0.1172 -0.0853 0.0112 -0.0342 0.0264 -0.0184 -0.0280 -0.0039 -0.0405 -0.0267 0.0186 0.0574 0.0446 -0.0196 -0.0584 -0.0757 -0.0082 -0.0688 0.0604 0.0919 0.0663 0.0884 -0.0522 -0.0657 -0.0831 -0.0050 -0.0688 0.0884 0.1176 0.0763 0.1073 -0.0499 -0.0083 -0.0262 0.0208 -0.0205 0.1010 0.0850 0.0228 0.0602 -0.0290 0.0846 0.0690 0.0625 0.0590 0.1044 0.0275 -0.0538 -0.0208 -0.0040 0.0684 0.0170 0.0533 0.0148 0.2641 0.0636 -0.1913 -0.0412 -0.0579 0.2157 0.2387 0.1488 0.2210 0.0508 -0.0028 -0.0065 -0.0827 0.0398 0.2387 0.2846 0.1732 0.2701 0.0030 0.0058 0.0727 -0.0690 0.0625 0.1488 0.1732 0.1335 0.1794 0.0972 0.0830 0.0682 0.0011 0.0253 0.2210 0.2701 0.1794 0.2706 0.0458 0.0589 0.1094 -0.0283 0.0619 0.0508 0.0030 0.0972 0.0458 0.4573 0.2310 -0.1432 0.0339 -0.1036 -0.0028 0.0058 0.0830 0.0589 0.2310 0.2487 0.1577 0.1701 0.0030 -0.0065 0.0727 0.0682 0.1094 -0.1432 0.1577 0.4729 0.2701 0.1983 -0.0827 -0.0690 0.0011 -0.0283 0.0339 0.1701 0.2701 0.2824 0.1861
0.0398 0.0625 0.0253 0.0619 -0.1036 0.0030 0.1983 0.1861 0.3239 0.0024 -0.0575 -0.0453 -0.0727 0.0780 -0.0542 -0.1152 0.1368 0.3351
Column 19 0.0634 0.0349 0.0019 -0.0555 -0.0754 -0.0702 -0.0120 0.0541 0.1409 0.0024 -0.0575 -0.0453 -0.0727 0.0780 -0.0542 -0.1152 0.1368 0.3351 0.7102 SSE =8.1096e+04 SSR =4.0005e+06 MSR =1.0001e+06
MSE =5.7926e+03 注意:MSE?ESS?2?5792??.6,p=4
n?p-1F0 =172.6562 得到F统计量观测值F0=172.6562 Fa = 3.1122
程序的输出结果列在表3.12中
F检验:H0:?1??2??3??4?0,H1:?i(i?1,2,3,4)不全为零
表3.12 方差分析表
方差来源 平方和 自由度 均方和 F 概率p值 回归 误差 总计 RSS=4000513 P=4 ESS=81096.389 n-p-1=14 TSS=4081609 n-1=18 MSR=RSS/p=1000128.161 MSE=ESS/n-p-1=5792.599 172.656 0 从方方差分析表可知统计量:F0=172.656,给定?=0.05,查分布表,得到一个临界值F?(4,18)=3.1122,因为F0> F?,或者由F0的p值为p0=0<0.05,所以拒绝H0,接受备择假设H1,说明总体回归系数?i不全为零,即表明模型的线性关系在95%的置信水平下显著成立. 2)回归系数的t 检验 %t检验程序
?)???ckk?MSE?ckk S=MSE*inv(x'*x); % 计算回归参数的协方差矩阵s(?kT0=db./sqrt(diag(S)); % 每个回归参数的T统计量 t0kTa=tinv(0.975,n-p-1); % t分布的分位数
pp=tpdf(T0,n-p-1); % 每个回归参数的T统计量对应的概率 t检验程序结果:
S =1.0e+04 *
2.2597 -0.0003 -0.0004 -0.0032 0.0024 -0.0003 0.0000 0.0000 0.0000 -0.0000 -0.0004 0.0000 0.0000 0.0000 -0.0000 -0.0032 0.0000 0.0000 0.0000 -0.0000
0.0024 -0.0000 -0.0000 -0.0000 0.0000 说明:S?MSE?(XX)T?1??k ??s(?k)?ESS?(XTX)?1,对角元素开方为
n?p?1,
?)???ckk?MSE?ckks(?k?每个元素与T0?(t00,t01,t02,t03,t4)T为βS对角元素开方相除
t统计量值 T0 = 2.2967 3.8122 2.3899 -3.2424 -2.2149
Ta =2.1448 t?/2(n?p?1) T检验P值 pp =
0.0356 0.0019 0.0301 0.0059 0.0412
t检验:H0k:?k?0?H1:?k?0,(k?0,1,2,3,4)
统计量tk???k?ckk??H为真?k?~t(n?p-1)?t(14)
?s(?k)02?~N(β,注意:ckk为(XX)-1对角元,?kk?ckk)
2?)?)???ckk?MSE?ckk,S?MSE?(XTX)?1对角元为(s(?s(?k) kTESSY(I?H)Y??(??,??,?,??)??, ??MSE??β(XX)XY01p?1n?p?1n?p?1T?1T2表3.13 参数估计表
变量 常数项 省人均GDP 第二产业增加值 服务业就业人数 服务业资本形成总额 β值 标准差 t值 2.2967 3.8122 2.3899 -3.2424 -2.2148 p值 0.0356 0.0019 0.0301 0.0059 0.0412 345.2493 150.322 0.1672 0.044 0.1962 0.082 -0.7012 0.216 -0.6537 0.295 给?=0.05,表3.13 最后一列概率均小于0.05,拒绝H0,接受备择假设H1,即回归系数?i(i=0,1,2,3,4)显著不为零. 3)复相关系数及相关性检验 %可决系数检验 程序:
R2=RSS/TSS; % 计算样本决定系数 程序结果 R2 =0.9801
该方程的拟合优度判定系数R2?调整后的拟合优度判定系数
2Ra?1?(1?R2)?RSS?0.9801 TSSn?1?0.976
n?p?1由此说明该多元线性回归方程的拟合程度比较理想.