(1-1) )(ijppss??
称为x1,x2,…,xp这些指标的方差/协方差矩阵(样本的),或简称为样本的协方差阵.用S的行列式值|S|反映这p个指标变化的状况,称为广义方差,因为p=1时
|S|=|s11|=变量x1的方差,所以它可以看成是方差的推广.可以证明,当x1,…,xp相互独立时,广义方差|S|达到最大值;当x1,…,xp线性相关时,广义方差|S|的值是0.因此,当x1,…,xp既不独立,又不线性相关时,广义方差的大小反映了它们内部的相关性.
现在来考虑条件广义方差,将(1-1)式分块表示,也就是将x1,…,xp这p个指标分成两部分,( x1,…,xp1)和(xp+1,…,xp),分别记为x(1)和x(2),即
pppppxxxxxxp??????????????????????????2121)2()1(21,11...
212221121121ppSsssspp?????? ?
这样表示后,s11,s22分别表示x(1)和x(2)的协方差.给定x(1)之后,x(2)对x(1)的条件协差阵,从数学上可以推导得到(在正态分布的前提下)
S(x(2)|x(1))=s22-s21s11-1s12 (1-2)
(1-2)表示已知x(1)时,x(2)的变化状况.可以想到,若已知x(1)后,x(2)的变化很小,那么x(2)这部分指标就可以删去,表示x(2)所能反映的信息,在x(1)中几乎都可得到,因此就产生条件广义方差最小的删去方法.方法如下:
将x1,…,xp分成两部分,(x1,…,xp-1)看成x(1),xp看成x(2),用(1-2)就可算出
S(x(2)|x(1)),此时是一个数值,它是识别xp是否应删去的量,记为tp.类似地,对xi,可以将xi看成x(2),余下的p-1个看成x(1),用(1-2)算出一个数,记为ti.于是得到t1,t2,…,tp这p个值,比较它们的大小,最小的一个是可以考虑删去的,这与所选的临界值有关,这个临界值C就是自己选的,认为小于这个C就可删去,大于这C不宜删去。给定C之后,逐个检查 ti 是否成立,有就删,删去后对留下的变量,可以完全重复上面的过程,因此,这样可以进行到没有可删的为止,这就选得了既有代表性又不重复的指标集. 从(1-2)式可以看到,如有经验,不必逐个考虑,完全可以将指标分组,按组来考虑,方法/步骤与上面所说的相同. 2.极大不相关 容易想到,如果x1与其他的x2,…,xp是独立的,那就表明x1是无法由其他指标来代替的,因此保留的指标应该是相关性越小越好,在这个想法指引下,就导出极大不相关方法.首先利用(1-1)式,求出(样本的)相关阵R (1-3) )(ijrR? pjisssrjjiiijij....,2,1,?? rij称为xi与xj的相关系数,它反映了xi与xj的线性相关程度.现在要考虑的是一个变量xi与余下的p-1个变量之间的线性相关程度,称为复相关系数.通常记为 piiixxxxxx,....,,....,,|1121??? 这个符号太复杂,现在简化为,但要注意它的意义.可以由下面的公式来计算.先将R分块,例如要计算,就将R写成i?p? )(111的相关阵表示除去pppTpppxRrrRR???????? ??(注意R中的主对角元素rij=1,I=1,2,…,p),于是 (1-4) ppTpprRr12???? 类似地要计算时,见R中的第i行/第i列经过置换,放在矩阵最后一行,最后一列,此时2i? ???????1TiiirrRR?置换后 于是的计算公式为2i? pirRriiTii,....,2,1,12???? ? 算得后,其中值最大的一个,表示它与其余变量相关性最大,指定临界值D之后,当时,就可以删去xi. 221,....,p??Di?2? 例1.2(续1.1) 我国各地区高教发展水平的十项指标值如表2-5所示,其中x1,x2,…,x10的含义见图1-1.试用极大不相关法进行筛选. 由表1-1中数据可求得十个指标中的每一个与其余九个指标的相关系数如下(记xi与其余九个指标的复相关系数为): )1(i? 80920.0,92324.094687.0,93591.099952.0,99926.099946.0,99923.099692.0,99786.0)1(10)1(9)1(8)1(7)1(6)1(5)1(4)1(3)1(2)1(1??????????????????? ? 可见,指标x6与其余指标间的复相关系数最大,因而它最能被其余指标代替,故先将x6剔除掉.再计算余下的九个指标中的每一个与其余八个指标的复相关系数,记为: )2(i? 表1-1 76681.090513.0,94490.092327.0,99497.099945.0,99923.099647.0,99671.0)2(10)2(9)2(8)2(7)2(5)2(4)3(3)2(2)2(1?????????????? ????序号 地区 X1 X2 X3 X4 X5 X7 X8 X6 X9 X10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 北京 上海 天津 陕西 辽宁 吉林 黑龙江 湖北 江苏 广东 四川 山东 甘肃 湖南 浙江 新疆 福建 山西 河北 安徽 云南 江西 海南 内蒙古 西藏 河南 广西 宁夏 贵州 青海 5.96 310 461 1557 931 319 44.36 2615 2.20 13631 3.39 234 308 1035 498 161 35.02 3052 0.90 12665 2.35 157 229 713 295 109 38.40 3031 0.86 9385 1.35 81 111 364 150 58 30.45 2699 1.22 7881 1.50 88 128 421 144 58 34.30 2808 0.54 7733 1.67 86 120 370 153 58 33.53 2215 0.76 7480 1.17 63 93 296 117 44 35.22 2528 0.58 8570 1.05 67 92 297 115 43 32.89 2835 0.66 7265 0.95 64 94 287 102 39 31.54 3008 0.39 7786 0.69 39 71 205 61 24 34.50 2988 0.37 11355 0.56 40 57 177 61 23 32.62 3149 0.55 7693 0.57 58 64 181 57 22 32.95 3202 0.28 6805 0.71 42 62 190 66 26 28.13 2657 0.73 7282 0.74 42 61 194 61 24 33.06 2618 0.47 6477 0.86 42 71 204 66 26 29.94 2363 0.25 7704 1.29 47 73 265 114 46 25.93 2060 0.37 5719 1.04 53 71 218 63 26 29.01 2099 0.29 7106 0.85 53 65 218 76 30 25.63 2555 0.43 5580 0.81 43 66 188 61 23 29.82 2313 0.31 5704 0.59 35 47 146 46 20 32.83 2488 0.33 5628 0.66 36 40 130 44 19 28.55 1974 0.48 9106 0.77 43 63 194 67 23 28.81 2515 0.34 4085 0.70 33 51 165 47 18 27.34 2344 0.28 7928 0.84 43 48 171 65 29 27.65 2032 0.32 5581 1.69 26 45 137 75 33 12.10 810 1.00 14199 0.55 32 46 130 44 17 28.41 2341 0.30 5714 0.60 28 43 129 39 17 31.93 2146 0.24 5139 1.39 48 62 208 77 34 22.70 1500 0.42 5377 0.64 23 32 93 37 16 28.12 1469 0.34 5415 1.48 38 46 151 63 30 17.87 1024 0.38 7368 由此看出,我们应剔除指标x4,同理再计算余下八个指标的复相关系数,结果如下: 75579.0,90321.094102.0,92182.099292.0,99839.099582.0,99657.0)3(10)3(9)3(8)3(7)3(5)3(3)3(2)3(1????????????? ??? 指标x3应剔除,在余下七指标中,如果再计算下去,应剔除的将是x1,但考虑到指标x1(每百万人口学校数)反映着高教发展水平的五个方面之一高等学校数量,如果剔除的话,这个侧面将不能被反映,所以剔除到此为止,我们将余下的七个指标作为评价指标。从图1-1看出,剔除的x4,x3与留下的x2反映同一个侧面,x6与x5,x7反映同一个侧面,因而x4,x3,x6在一定程度上可以被其他指标代替,这与定性分析的结果也是吻合的. 3.选取典型指标 如果开始考虑的指标过多,则可以将这些指标先进行聚类,而后在每一类中选取若干个典型指标.关于聚类分析我们将在后面介绍.在每一类中选取典型指标可以用上述方法1或2.这两种方法的计算量都相当大,下边介绍一种用单相关系数选取典型指标的方法,该方法较为粗略,但其计算简单,在实际中可依据具体情况选用. 假设反映事物同一侧面的或聚为同一类的指标有n个,分别为a1,a2,….an.第一步计算n个指标之间的相关系数矩阵R ??????????nnnnnnrrrrrrrrrR?????????212222111211 ?第二步计算每一指标与其他n-1个指标的决定系数(相关系数的平方)的平均值—2ir (1-5) nirnrnjiji,,2,1,11122_?????????????? 则粗略地反映了ai与其他n-1个指标的相关程度。第三步比较的大小,若有2_ir 2_12_maxinikrr??? 则可选取ak作为a1,a2,…,an的典型指标,需要的话,还可以在余下的n-1个指标中继续选取。这里之所以要用复相关系数的平方是为了防止相关系数可能为负,因而无法直接相加求平均。如果相关系数均为正,则可直接用相关系数。比如,例1.1中的指标x5,x6,x7,反映了高教发展水平的同一侧面,其相关阵为 33155001.055988.055001.0199859.055988.099859.01????????????R 直接用相关系数由(1-5)式可求得 77924.0)155988.099859.01(1315_?????r ?同理可得 55495.0,7743.07_6_??rr 最大,故应选x5为x5,x6,x7的典型指标.如果再选一个,应在x6和x7之间选取,而x6和x7之间相关性为0.55001,无法再用上边的方法,但我们从相关阵可以看出x6和x5的相关性(0.99859)要大于x7与x5的相关性(0.55988),已经选取了x5,它已将x6基本代替,因而应选x7.即如果从x5,x6,x7中选两个指标,应选x5和x7. 5_r 三、量纲 在分析过程中如选取了人口、面积、某消费量和产值等指标.这些指标显然是异量