实验十一 判别分析
实验目的:
掌握判别分析在SPSS中的实现方法。
实验工具:
SPSS分析工具菜单项。
知识准备:
一、判别分析的基本原理
在已经将研究对象分成若干组的情况下,根据收集到的新的观测样品的数据和判别规则,来判断新样品应该属于哪个组。具体判别过程中,根据分组情况,可以有两组判别和多组判别之分;根据判别规则不同,有距离判别、贝叶斯判别和典型判别等方法。 二、判别分析的基本步骤
1.了解总体分组情况。了解总体可以分为几个组,各个组的数值特征。
2.选取判别方法。根据所收集的样本的数据类型以及总体分组情况,决定是采用两组判别还是多组判别,判别时是用距离判别、贝叶斯判别和典型判别中的哪一种。
3.判别结果检验。用验证样本带入判别规则(函数),检验其是否具有有效性。
三、判别分析的几种方法简介
1.距离判别。在距离判别中,经常用马哈拉诺比斯提出的“马氏距离”来进行判断。设X,Y是从均值为?,协方差矩阵为?(?0)的总体G中抽取的两个样品(p维),则总体G内两点X与Y之间的平
方马氏距离定义为:
d2(X,Y)?(X?Y)'??1(X?Y)
点X到总体G的平方马氏距离为:
d2(X,G)?(X??)'??1(X??)。
1) 两总体距离判别。设有两总体G1和G2的均值分别为?1和
?2,协方差矩阵分别为?1和?2(?1,?2?0),Xp?1是一个新样本,
判断其属于哪个总体。定义Xp?1到G1和G2的距离为d2(X,G1)和
d2(X,G2),则按如下判别规则进行判断:
?X?G1,若d2(X,G1)?d2(X,G2)X?G2,若d2(X,G2)?d2(X,G1)
当?1=?2时,该判别式可进行如下简化:
d2(X,G1)?d2(X,G2)=(X??1)'??1(X??1)?(X??2)'??1(X??2)
'?1'?1'?1'?1'?1'?1X?X?2X???????(X?X?2X??????2) 11122 =
'?1'?12X?(???)?(???)?(?1??2) 2112 =
=?2(X??1??22)'??1(?1??2)
1(?1??2),A???1(?1??2) 2 =?2A'(X??) 其中??令W(X)?A'(X??),则判别规则就成为:
?数。
X?G1,若W(X)?0X?G2,若W(X)?0
显然W(X)是X的线性函数,故称其为线性判别函数,A称为判别系
当?1??2时,
W(X)?d2(X,G1)?d2(X,G2)
1=(X??1)'?1?1(X??1)?(X??2)'??2(X??2)
判别规则为:
?组的平方马氏距离是:
X?G1,若W(X)?0X?G2,若W(X)?0
2) 多总体距离判别。设有k个总体G1,G2,?,Gk,它们的均值分别是?1,?2,?,?k,协方差矩阵分别是?1,?2,?,?k,则样本X到各
?1d2(X,G?)?(X???)'??(X???) , ??1,2.?,k
判别规则为:X?Gi ,若 d2(X,Gi)?mind2(X,Gj)
1?j?k2.贝叶斯判别。设有k个总体G1,G2,?,Gk,且G?~Np(??,??) ,
???0 ,??1,2.?,k 。又设样本X来自总体G?的先验概率为q?,
??1,2.?,k,满足q1?q2???qk?1。
X
?1到G?的平方马氏距离是:d2(X,G?)?(X???)'??(X???)
?1/22exp?0.5d?(X,G?)来自G?的X的概率密度为:f?(X)?(2?)?p/2??根据贝叶斯定理,X属于G?的后验概率为:
PG?X?q?f?(X)??
?q?f?(X) ,
k??1,2.?,k
??1判别规则如下:X?Gi , 若
PGiX?maxPGjX1?j?k
3.费希尔判别。用p维向量 x?(x1,x2,?,xp)'的少数几个线性组
'''y?ax,y?ax,?,y?a1122rrx(一般合(称为判别式或典型变量)
r明
显小于p)来代替原始的p个变量 x1,x2,?,xp,以达到降维的目的,并根据这
r个判别式y,y,?,y对样品的归属作出判别。
12r 设来自组 ?i的p维观测值为xij,j?1,2,?,ni,i?1,2,?k,
将它们投影到某一共同方向,得到的投影点是线性组合
yij?a'xij,j?1,2,?,ni,i?1,2,?k,其中a表示投影方向。这时的yij可
以组成一元方差分析数据。其组间平方和表示为
ki?1SSTR??ni(yi?y)??ni(a'xi?a'x)2?a'Ba2i?1i?1kk
'式中B??n(xi?x)(xi?x) ,xi和x分别为第i组均值和总均值向
量。
2'''SSE?(y?y)?(ax?ax)?aEa 组内平方和为:??iji??ijii?1j?1i?1j?1kni'knikni2式中,E???(xij?xi)(xij?xi)。
i?1j?1SSTR/(k?1)(n?k)a'Ba如果k组均值有显著差异,则F?应充分?'SSE/(n?k)(k?1)aEaa'Ba地大,或者?(a)?'应充分地大。所以问题转化为求a,使得?(a)aEa达到最大。当用任意非零常数c乘以a,所得?(ca)仍可达到最大,所以a并不唯一。因此,将a约束为a'Spa?1,Sp?1En?k是当
?1??2???k??时?的无偏估计。由矩阵知识可知,?(a)的极大值
为?1是B??E?0的最大特征值。设B??E?0的全部非零特征值依次为?1??2????s?0,对应特征向量为t1,t2,?,ts。当a?t1时,可使?(a)达到最大。由于?(a)的大小可衡量判别函数y?ax的效果,故称
?(a)为判别效率。在许多情况下,仅用一个判别函数不能很好区别
'各个总体,可取?2对应的特征向量t2,建立y2?t2x,如不够,还
'