6009221.doc
商务数据分析
电子商务系列
有效;第三个是由于回归残差不独立,它们包含可用来改进预测值的信息。由于这些原因,所以对时间序列数据不使用普通回归proc reg过程而使用带自回归误差的回归pro autoreg过程。Model语句中指定回归模型,象其他SAS回归模型一样,通过首先命名因变量然后在等号后列举回归因子来指定模型。Model语句没有选项,是要求利用普通最小二乘法做x对t的回归。Proc gplot过程绘出了模拟时间序列的x的散点图,散点符号用“*”来表示(v=star),并且将这些散点依次连接起来(i=join)。由于SAS的绘图过程具有简单的统计功能,我们可以直接在同一张输出图中同时绘出一条线性回归趋势线以供参考, symbol2语句中i=rl选项,就是指定plot语句中x*t=2选项做x对t的回归。程序运行后结果见表40.2和见图40-8所示。
Autoreg Procedure Dependent Variable = X Ordinary Least Squares Estimates SSE 214.9534 DFE 34 MSE 6.32216 Root MSE 2.514391 SBC 173.6591 AIC 170.4921 Reg Rsq 0.8200 Total Rsq 0.8200 Durbin-Watson 0.4752 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1 8.230758 0.8559 9.616 0.0001 T 1 0.502110 0.0403 12.447 0.0001 表 40.2 autoreg对OLS估计的结果
图40-8 模拟的自相关时间序列和回归直线
对表40.2中的输出结果分析。用OLS回归结果首先显示了关于模型残差的统计量。模型的误差
上海财经大学经济信息管理系IS/SHUFE
Page 25 of 32
6009221.doc
商务数据分析
电子商务系列
平方和SSE、误差自由度DFE、均方误差MSE、均方根误差MSE、信息准则SBC和AIC、二个R统计量和DW统计量。其中一个R统计量是对回归模型的Reg Rsq,而另一个R统计量是对包括自回归误差在内的整体模型的Total Rsq,在此过程中现在还无自回归误差模型,所以二个R统计量是相等的。最后的输出显示了一个带有标准差和t检验的回归系数表,t检验的结果表明回归系数都显著不为0。估计模型为:
2222xt?8.230758?0.502110t??t估计Var(?t)?6.32216 (40.82)
OLS参数估计较合理地靠近真实值,但是误差方差估计6.32216远大于真实值4。误差方差估计值远
大于真实值,说明模型还有信息没有提取。但实际情况我们并不知道误差方差估计值远大于真实值这一点,而是通过对模型的残差作自相关性检验来判断和识别。 3. 检验模型的自相关系数
proc autoreg data=randar; model x=t /dw=4 dwprob; run;
程序说明:在处理实际问题中,我们需要检验自相关性是否存在,以及存在几阶自相关。Durbin-Watson检验是广泛使用的自相关性的检验方法。选项dw=4和dwprob是要求过程进行1到4阶的OLS残差中自相关性Durbin-Watson检验,并要求打印输出Durbin-Watson统计量的边缘显著水平p值。请注意对于季节性时间序列数据,自相关性检验应该至少检验与季节性阶一样大的阶。例如,对于月度数据至少应取dw=12。程序运行后结果见表40.3所示。
Autoreg Procedure Dependent Variable = X Ordinary Least Squares Estimates SSE 214.9534 DFE 34 MSE 6.32216 Root MSE 2.514391 SBC 173.6591 AIC 170.4921 Reg Rsq 0.8200 Total Rsq 0.8200 Durbin-Watson Statistics Order DW PROB 对表40.3中的输出结果分析。一阶Durbin-Watson统计量为0.4752,其 p值为<0.0001,极其显 著,强烈拒绝一阶自相关系数为0的原假设。因此,自相关性的校正是必须的。要注意的问题是,利用Durbin-Watson检验可决定是否需要做自相关性校正。但广义的Durbin-Watson检验不应该用于确定自回归的阶数。因为高阶的检验是在无低阶自相关性的原假设下进行的。例如,若普通的Durbin-Watson 上海财经大学经济信息管理系IS/SHUFE Page 26 of 32 6009221.doc 商务数据分析 电子商务系列 检验表明无一阶自相关性,那么可以用二阶检验去检验二阶自相关性。一旦检验出某阶有自相关性存在,那么更高阶的检验将不适用。在表40.3中,由于1阶自相关性检验是显著的,所以2、3、4阶的检验是被忽略的。 4. 自回归误差模型 proc autoreg data=randar; model x=t /nlag=2 method=ml; output out=pout p=xhat pm=trendhat; run; proc gplot data=pout; plot x*t=1 xhat*t=2 trendhat*t=3 /overlay; symbol1 v=star i=none c=red h=2.5; symbol2 v=plus i=join c=blue h=2.5; symbol3 v=none i=join c=green w=2; title1 'Auto-Regression'; title2 'nlag=2 method=ml'; run; 程序说明:第一个proc autoreg过程中的model x=t /nlag=2语句,指定误差为1阶、2阶自回归模型时,进行x对t的回归,nlag=选项还有一种格式,如nlag=(1 4 5),表示自回归误差模型为 ?t??1?t?1??4?t?4??5?t?5?at。选项 method=ml,指定回归参数的估计采用精确最大似然估计方 法,缺省时使用Yule-Walker估计方法。用output语句输出预测值到pout数据集中,预测值有两种类 ?t型:第一类部分模型预测值仅通过模型的结构部分得到,即由x?0???1t部分得到,这是响应变量??xt在时刻t的无条件均值估计,用选项pm=trendhat表示将第一类部分预测值输出到数据集pout的指 定字段变量trendhat中;第二类整体模型预测值既包含模型的结构部分也包含自回归误差过程的预测 ?t值,即由x?0???1t???1?t?1???2?t?2整体模型得到,用选项p=xhat表示将第二类整体预测值输出??到数据集pout的指定字段变量xhat中。 第二个proc gplot过程针对自回归误差过程输出的数据集pout中数据共绘制三条曲线。第一条曲线由plot语句选项x*t=1指定原始观察值和时间画曲线,同时由symbol1语句描述曲线格式化形式,具体曲线格式为红色星号散布图;第二条曲线由plot语句选项xhat*t=2指定整体模型预测值和时间画曲线,同时由symbol2语句描述曲线格式化形式,具体曲线格式为兰色加号连线图;第三条曲线由plot语句选项trendhat*t=2指定部分模型预测值和时间画曲线,同时由symbol3语句描述曲线格式化形式,具体曲线格式为绿色无点连线图,本例因为t是一次方,所以是一条直线。程序运行后结果见表40.4和见图40-9所示。 上海财经大学经济信息管理系IS/SHUFE Page 27 of 32 6009221.doc 商务数据分析 电子商务系列 Autoreg Procedure Dependent Variable = X 以下是普通最小二乘法回归模型的有关结果 Ordinary Least Squares Estimates SSE 214.9534 DFE 34 MSE 6.32216 Root MSE 2.514391 SBC 173.6591 AIC 170.4921 Reg Rsq 0.8200 Total Rsq 0.8200 Durbin-Watson 0.4752 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1 8.230758 0.8559 9.616 0.0001 T 1 0.502110 0.0403 12.447 0.0001 Estimates of Autocorrelations Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 0 5.970929 1.000000 | |********************| 1 4.516919 0.756485 | |*************** | 2 2.024114 0.338995 | |******* | 以下是自回归误差模型的有关结果 Preliminary MSE = 1.794304 Estimates of the Autoregressive Parameters Lag Coefficient Std Error t Ratio 1 -1.16905667 0.148172 -7.890 2 0.54537934 0.148172 3.681 Maximum Likelihood Estimates SSE 54.7493 DFE 32 MSE 1.710916 Root MSE 1.30802 SBC 133.4765 AIC 127.1424 Reg Rsq 0.7280 Total Rsq 0.9542 Durbin-Watson 2.2761 表 40.4 AR(2)误差模型的最大似然估计 上海财经大学经济信息管理系IS/SHUFE Page 28 of 32