6009221.doc
商务数据分析
电子商务系列
关系数近似服从正态分布:
?k~N(0,) ?Quenouille证明,样本偏自相关系数也同样近似服从这个正态分布:
1n(40.58)
?kk~N(0,) ?1n(40.59)
设显著水平取??5%。如果样本自相关系数和样本偏自相关系数在最初的k阶明显大于2倍标准差,而后几乎95%的系数都落在2倍标准差的范围内,且非零系数衰减为小值波动的过程非常突然,通常视为k阶截尾;如果有超过5%的样本相关系数大于2倍标准差,或者非零系数衰减为小值波动的过程比较缓慢或连续,通常视为拖尾。
五、 参数估计和检验
对于一个非中心化ARMA(p,q),有
?q(B)xt????
?p(B)t通过样本的自相关系数和偏自相关系数的性质,估计出自相关阶数定阶后,该模型共含有
(40.60)
?和移动平均阶数q?。为模型pp?q?2个未知参数:?1,??p,?1,??q,?,??2。参数?用样本均值来估计
p?q?1个未知参数的估计方法
总体均值(矩估计法)。对原序列中心化后,待估参数减少一个。对有三种:矩估计、极大似然估计和最小二乘估计。 1. 参数的矩估计
?k,用时间序列样本数据计算出延迟1阶到p?q阶的样本自相关系数?延迟k阶的总体自相关系
数为?k(?1,??k,?1,??q),公式中包含
p?q个未知参数变量?1,??p,?1,??q。如果用计算出的
样本自相关系数来估计总体自相系数,那么有p?q个联立方程组:
?1??1(?1,??p,?1,??q)????????(?,??,?,??)???k ?k1p1q?????p?q???p?q(?1,??p,?1,??q)??从中解出矩估计。
(40.61)
?1,???p,??1,???q。这种方法称为参数的p?q个未知参数变量的值作为模型的参数估计值?222?x来估计总体方差?x白噪声序列的方差??的矩估计,是用时间序列样本数据计算出样本方差?上海财经大学经济信息管理系IS/SHUFE
Page 17 of 32
6009221.doc
商务数据分析
电子商务系列
求得。ARMA(p,q)模型的两边同时求方差,并把相应参数变量的估计值代入,可得白噪声序列的方差估计为:
2?12?????p1??2???2?? x22??1??1????q(40.62)
2. 参数的极大似然估计
当总体分布类型已知时,极大似然估计ML(maximum-likelihood)是常用的估计方法。极大似然估计的基本思想,是认为样本来自使该样本出现概率最大的总体。因此,未知参数的极大似然估计,就是使得似然函数(即联合密度函数)达到最大值的参数值。即:
?1,???P,??1,???q;x1,?xn)?max?p(x1,?xn;?1,??P,?1,??q)? L(?(40.63)
在时间序列分析中,序列的总体分布通常是未知的。为了便于分析和计算,通常假设序列服从多元正态分布,它的联合密度函数是可导的。当似然函数关于参数可导时,常常可以通过求导方法来获得似然函数极大值对应的参数值。在求极大似然估计时,为了求导方便,常对似然函数取对数,然后对对数似然函数中的未知参数求偏导数,得到似然方程组。理论上,只要求解似然方程组即可得到未知参数的极大似然估计。但是在实际上是使用计算机经过复杂的迭代算法求出未知参数的极大似然估计。
极大似然估计与矩估计的比较:矩估计的优点是不要求知道总体的分布,计算量小,估计思想简单直观。但缺点是只用到了样本自相关系数的信息,序列中的其他信息被忽略了,这导致矩估计方法是一种比较粗糙的估计方法,它的估计精度一般较差。因此,它常被作为极大似然估计和最小二乘估计的迭代计算的初始值。极大似然估计的优点是充分应用了每一个观察值所提供的信息,因而它的估计精度高,同时,还具有估计的一致性、渐近正态性和渐近有效性等优良统计性质,是一种非常优良的参数估计方法。 3. 参数的最小二乘估计
参数的最小二乘估计ULS(unconditional least squares)是使ARMA(p,q)模型的残差平方和达到最小的那组参数值。即:
n??1,???P,??1,???q)?min??(xt??1xt?1????pxt?p??1?t?1????q?t?q)2?Q(?? ?t?1?(40.64)
同极大似然估计一样,未知参数的最小二乘估计通常也是使用计算机借助迭代方法求出的。由于
充分利用了序列的信息,因此最小二乘估计的精度最高。在实际运用中,最常用的是条件最小二乘估计CLS(conditional least squares)方法。它假定时间序列过去未观察到序列值等于序列均值,如果是中心化后的序列,则序列过去未观察到序列值等于零(xt的有限项表达式:
t?(B)?t?x?xt???ixt?i
?(B)ti?1。根据这个假定可以的得到残差?0,t?0)
(40.65)
于是残差平方和达到最小的那组参数值为:
上海财经大学经济信息管理系IS/SHUFE
Page 18 of 32
6009221.doc
商务数据分析
电子商务系列
2nt??????????Q(?1,??P,?1,??q)?min???xt???ixt?i??
i?1????t?1??(40.66)
在实际运用中,条件最小二乘估计CLS也是通过迭代法求出参数的估计值。
4. 模型检验和参数检验
在拟合好模型的参数之后,一般来说,都要对该拟合模型进行必要的显著性检验。包括:模型的显著性检验和参数的显著性检验。
在ARMA模型场合,我们都使用QLB统计量检验残差序列的自相关性。为了克服DW检验的有偏性,Durbin在1970年提出了DW统计量的两个修正统计量:Durbin t和Durbin h统计量,这两个统计量渐近等价。Durbin h统计量为:
Dh?DW2n 21?n??(40.67)
式中,n为观察值序列的长度;??为延迟因变量系数的最小二乘估计的方差。修正后的Dh有效地提高了检验精度,成为延迟因变量场合常用的自相关检验统计量。
参数的显著性检验是要检验每一个模型参数是否显著非零。因为如果某个参数为零,模型中包含这个参数的乘积项就为零,可以简化模型。因此,这个检验的目的就是为了使模型最精简。原假设为:某个未知参数?j?0;备选假设为:?j?0。可以构造出检验未知参数显著性的t(n?m)检验统计
量,其中m为参数的个数。
如果某个参数?j不显著,即表示?j所对应的那个自变量对因变量的影响不明显,该自变量就可以从拟合模型中剔除。剔除不显著参数对应的自变量后应重新拟合模型,最终模型将由一系列参数显著非零的自变量表示。
六、 模型优化
当一个拟合模型在指定的置信水平?下通过了检验,说明了在这个置信水平?下该拟合模型能有效地拟合时间序列观察值的波动。但是这种有效的拟合模型并不是惟一的。如果同一个时间序列可以构造两个拟合模型,且两个模型都显著有效,那么应该选择哪个拟合模型用于统计推断呢?通常采用AIC和SBC信息准则来进行模型优化。
1. AIC准则
AIC准则是由日本统计学家赤池弘次(Akaike)于1973年提出,AIC全称是最小信息量准则(an information criterion)。AIC准则是一种考评综合最优配置的指标,它是拟合精度和参数未知个数的加权函数:
(40.68) AIC=-2ln(模型中极大似然函数值)+2(模型中未知参数个数)
使AIC函数达到最小值的模型被认为是最优模型。
2. BIC准则
AIC准则也有不足之处:如果时间序列很长,相关信息就越分散,需要多自变量复杂拟合模型才
上海财经大学经济信息管理系IS/SHUFE
Page 19 of 32
6009221.doc
商务数据分析
电子商务系列
??),即拟合误差随样本容量n放大。但是模能使拟合精度比较高。在AIC准则中拟合误差等于nln(?型参数个数的惩罚因子却与n无关,权重始终为常数2。因此在样本容量n趋于无穷大时,由AIC准
则选择的拟合模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多。
为了弥补AIC准则的不足,Akaike于1976年提出BIC准则。而Schwartz在1978年根据Bays理论也得出同样的判别准则,称为SBC准则。SBC准则定义为:
(40.69) SBC=-2ln(模型中极大似然函数值)+ln(n)(模型中未知参数个数) 它对AIC的改进就是将未知参数个数的惩罚权重由常数2变成了样本容量n的对数ln(n)。在所有通过检验的模型中使得AIC或SBC函数达到最小的模型为相对最优模型。之所以称为相对最优模型是
因为不可能比较所有模型。
2七、 序列预测
所谓预测就是利用时间序列已观察到的样本值对时间序列在未来某个时刻的取值进行估计。常用的预测方法是线性最小方差预测。线性是指预测值为观察值序列的线性函数,最小方差是指预测方差达到最小。
根据ARMA(p,q)模型的平稳性和可逆性,可以用Green函数的传递形式和逆转函数的逆转形式等价描述该序列:
xt??Gi?t?i
i?0??(40.70)
?t??Ijxt?j
j?0(40.71)
(8.1.70)式中,Gi为Green函数:
?1,i?0?Gi??i''?Gi?k?θk,i?1?k??k?1式中:
(40.72)
?k'????k,1?k?p'??k,1?k?q,?k??
?0,k?p?0,k?q(40.73)
(8.1.71)式中,Ii为逆转函数:
?1,j?0?Ij??j''?I?θ,j?1?kj?kk??k?1式中的?k和?k定义见(40.73)式。
上海财经大学经济信息管理系IS/SHUFE
'' (40.74)
Page 20 of 32