值的优劣程度,需要计算判定系数,用符号r2表示。
1.总平方和的分解 因为,
??e Yi?Yii把上式恒等变化,得:
?Y?Y???Y??Y???Y?Y??
iiii?Y?Y?为Y的变异,?Y??Y?为由X的变异所解释的部分,?Y?Y??为未解释部分或残差的变异。
iiiii用小写字母表示均值的离差,得
?i?ei yi?y?,即真实Y的均值等于估计Y的均值,因此e?0,或写为 由于Y?Yyi?b2xi?ei
?i?b2xi。(注:y)
对上式两边同时平方再求和,经过简单数学变换,得
?y或等价地,
2i?i??ei ??y2222?yi?b22?xi??ei (3-12)
各种平方和定义如下:
2?y??y2i2=总平方和?TSS?,真实Y值围绕其均值Y的总变异。
i??Y)的变异,也称为回归平方和(由解释变量解=解释平方和?ESS?,估计的Y值围绕其均值(Y释的部分)。
?e2i=残差平方和?RSS?,即Y变异未被解释的部分。
则式(3-12)可简化为
TSS=ESS+RSS (3-13)
式(3-13)表明,Y值与其均值的总离差可以分解为两部分:一部分归于回归线,另一部分归于随机因素,因为并不是所有的真实观察值Y都落在拟合直线上,参见下图。
2.判定系数r2
如果选择的SRF很好地拟合了样本数据,则ESS远大于RSS。如果所有真实的Y值都落在拟合的SRF上,则ESS等于TSS,RSS为0;另一方面,如果SRF拟合得不好,则RSS远大于ESS。如果X不能解释Y的变异,则ESS为0,而RSS等于TSS。当然,这是极端情形。一般的情形是:ESS和RSS均不为零,如果ESS远大于RSS,则SRF在很大程度上解释了Y的变异;如果RSS远大于ESS,则SRF只能部分解释Y的变异。把式(3-13)的两边同除以TSS,得
1=定义,
ESSRSS (3-14) +TSSTSSESS (3-15) TSSr2=称r2为(样本)判定系数,通常用来度量回归线的拟合优度。用文字表述为,判定系数度量了回归模型对Y变异的解释比例(或百分比)。
r2有两个重要性质:
(1)非负性,因为ESS与RSS都是平方和,都是非负的;
(2)0?r2?1,因为部分?ESS?不可能大于整体?TSS?。若r?1,则表示“完全拟合”,即线性模型完全
2解释Y的变异。若r2?0,则表示Y与X之间无任何关系。
3.r2的计算公式
根据式(3-15),式(3-14)可改写为
RSS2?ei1?r??r? 2TSS?yi22因此,
r24.判定系数r与相关系数r
2e??1??y22ii
样本相关系数r度量了两个变量X与Y之间的线性相关程度,r可写为:
r???Xi?????xy?X?X??Y?Y??x?yi?XYi?Y2iii222
ii相关系数也能够通过判定系数r计算得到
2r??r2 即在双变量回归模型中,相关系数的平方等于判定系数。
七、回归分析结果的报告
回归分析结果的报告有多种形式。在没有使用统计软件之前,回归结果的报告通常采用下面的形式:
??B?BXYi12ise?????t?????p?????r2???df???
第一行括号内的数值表示估计回归系数的标准误,第二行括号内的数值表示在零假设下(每个回归系数的真实值为零)估计的t值