实验十一 判别分析 下载本文

实验十一 判别分析

实验目的:

掌握判别分析在SPSS中的实现方法。

实验工具:

SPSS分析工具菜单项。

知识准备:

一、判别分析的基本原理

在已经将研究对象分成若干组的情况下,根据收集到的新的观测样品的数据和判别规则,来判断新样品应该属于哪个组。具体判别过程中,根据分组情况,可以有两组判别和多组判别之分;根据判别规则不同,有距离判别、贝叶斯判别和典型判别等方法。 二、判别分析的基本步骤

1.了解总体分组情况。了解总体可以分为几个组,各个组的数值特征。

2.选取判别方法。根据所收集的样本的数据类型以及总体分组情况,决定是采用两组判别还是多组判别,判别时是用距离判别、贝叶斯判别和典型判别中的哪一种。

3.判别结果检验。用验证样本带入判别规则(函数),检验其是否具有有效性。

三、判别分析的几种方法简介

1.距离判别。在距离判别中,经常用马哈拉诺比斯提出的“马氏距离”来进行判断。设X,Y是从均值为?,协方差矩阵为?(?0)的总体G中抽取的两个样品(p维),则总体G内两点X与Y之间的平

方马氏距离定义为:

d2(X,Y)?(X?Y)'??1(X?Y)

点X到总体G的平方马氏距离为:

d2(X,G)?(X??)'??1(X??)。

1) 两总体距离判别。设有两总体G1和G2的均值分别为?1和

?2,协方差矩阵分别为?1和?2(?1,?2?0),Xp?1是一个新样本,

判断其属于哪个总体。定义Xp?1到G1和G2的距离为d2(X,G1)和

d2(X,G2),则按如下判别规则进行判断:

?X?G1,若d2(X,G1)?d2(X,G2)X?G2,若d2(X,G2)?d2(X,G1)

当?1=?2时,该判别式可进行如下简化:

d2(X,G1)?d2(X,G2)=(X??1)'??1(X??1)?(X??2)'??1(X??2)

'?1'?1'?1'?1'?1'?1X?X?2X???????(X?X?2X??????2) 11122 =

'?1'?12X?(???)?(???)?(?1??2) 2112 =

=?2(X??1??22)'??1(?1??2)

1(?1??2),A???1(?1??2) 2 =?2A'(X??) 其中??令W(X)?A'(X??),则判别规则就成为:

?数。

X?G1,若W(X)?0X?G2,若W(X)?0

显然W(X)是X的线性函数,故称其为线性判别函数,A称为判别系

当?1??2时,

W(X)?d2(X,G1)?d2(X,G2)

1=(X??1)'?1?1(X??1)?(X??2)'??2(X??2)

判别规则为:

?组的平方马氏距离是:

X?G1,若W(X)?0X?G2,若W(X)?0

2) 多总体距离判别。设有k个总体G1,G2,?,Gk,它们的均值分别是?1,?2,?,?k,协方差矩阵分别是?1,?2,?,?k,则样本X到各

?1d2(X,G?)?(X???)'??(X???) , ??1,2.?,k

判别规则为:X?Gi ,若 d2(X,Gi)?mind2(X,Gj)

1?j?k2.贝叶斯判别。设有k个总体G1,G2,?,Gk,且G?~Np(??,??) ,

???0 ,??1,2.?,k 。又设样本X来自总体G?的先验概率为q?,

??1,2.?,k,满足q1?q2???qk?1。

X

?1到G?的平方马氏距离是:d2(X,G?)?(X???)'??(X???)

?1/22exp?0.5d?(X,G?)来自G?的X的概率密度为:f?(X)?(2?)?p/2??根据贝叶斯定理,X属于G?的后验概率为:

PG?X?q?f?(X)??

?q?f?(X) ,

k??1,2.?,k

??1判别规则如下:X?Gi , 若

PGiX?maxPGjX1?j?k

3.费希尔判别。用p维向量 x?(x1,x2,?,xp)'的少数几个线性组

'''y?ax,y?ax,?,y?a1122rrx(一般合(称为判别式或典型变量)

r明

显小于p)来代替原始的p个变量 x1,x2,?,xp,以达到降维的目的,并根据这

r个判别式y,y,?,y对样品的归属作出判别。

12r 设来自组 ?i的p维观测值为xij,j?1,2,?,ni,i?1,2,?k,

将它们投影到某一共同方向,得到的投影点是线性组合

yij?a'xij,j?1,2,?,ni,i?1,2,?k,其中a表示投影方向。这时的yij可

以组成一元方差分析数据。其组间平方和表示为

ki?1SSTR??ni(yi?y)??ni(a'xi?a'x)2?a'Ba2i?1i?1kk

'式中B??n(xi?x)(xi?x) ,xi和x分别为第i组均值和总均值向

量。

2'''SSE?(y?y)?(ax?ax)?aEa 组内平方和为:??iji??ijii?1j?1i?1j?1kni'knikni2式中,E???(xij?xi)(xij?xi)。

i?1j?1SSTR/(k?1)(n?k)a'Ba如果k组均值有显著差异,则F?应充分?'SSE/(n?k)(k?1)aEaa'Ba地大,或者?(a)?'应充分地大。所以问题转化为求a,使得?(a)aEa达到最大。当用任意非零常数c乘以a,所得?(ca)仍可达到最大,所以a并不唯一。因此,将a约束为a'Spa?1,Sp?1En?k是当

?1??2???k??时?的无偏估计。由矩阵知识可知,?(a)的极大值

为?1是B??E?0的最大特征值。设B??E?0的全部非零特征值依次为?1??2????s?0,对应特征向量为t1,t2,?,ts。当a?t1时,可使?(a)达到最大。由于?(a)的大小可衡量判别函数y?ax的效果,故称

?(a)为判别效率。在许多情况下,仅用一个判别函数不能很好区别

'各个总体,可取?2对应的特征向量t2,建立y2?t2x,如不够,还

'