南京师范大学泰州学院本科毕业论文
2.5 采样区重金属污染主要原因分析
为分析采样区土壤重金属污染的主要原因,我们建立因子分析模型[16]对数据进行处理。因子分析能将众多复杂的变量化繁为简,即用少数因子来描述复杂的环境。所测的实际值可作为因子和所谓“误差”的线性复合。因子分析曾成功用于重要环境因子的提取。借助MATLAB对与土壤有关的一系列数据进行因子分析。因子分析法通过对因子载荷矩阵进行方差最大化旋转来减少不重要变量的贡献。因子分析能提供有关污染源的有价值的定性信息。
设有p个原始变量xi(i?1,2,?,p),它们可能相关,也可能独立,将xi标准化得到新变量zi,则可以建立因子分析模型如下:
zi?ai1F1?ai2F2???aimFm?ciUi?i?1,2,?,p?
其中Fj?j?1,2,?,m?出现在每个变量的表达式中,称为公共因子,它们的含义要根据具体问题来解释;Ui?i?1,2,?,p?仅与变量zi有关,称为特殊因子;系数aij、
ci?i?1,2,?,p,j?1,2,?,m?称为因子载荷;A?aij称为载荷矩阵。 可以将上述公式表示为如下的矩阵形式:
z?AF?CU
??其中z?zi,z2,?,zp??T,F??F1,F2,?Fm?,U?U1,U2,?,UpT??T,A?aij??p?m,
C?diag?c1,c2,?,cp?,
对此模型通常需要假设:
1)各特殊因子之间以及特殊因子与所有公共因子之间均相互独立,即:
222??COV?U??diag?1,?2,?,?p ???COV?F,U??0??2)各公共因子都是均值为0,方差为1的独立正态随机变量,其协方差矩阵为单位阵Im,即F~N?0,Im?。当因子F的各个分量相关时,COV?F?不再是对角阵,这样的模型称为斜交因子模型,我们不考虑这种模型。
m个公共因子对第i个变量方差的贡献称为第i共同度,记为hi2,
22hi2?ai21?ai2???aim
而特殊因子的方差称为特殊方差或者特殊值?i2,i?1,2,?,p,从而第i个变量的方差有如下分解:
?? 16
南京师范大学泰州学院本科毕业论文
Varzi?hi2??i2,i?1,2,?,p
基于样本相关系数矩阵R的主成分解:
设?1??2????p为样本相关系数矩阵R的特征值;?1,?2,?,?p为相应的标准正交化特征向量。设m?p,则样本相关系数矩阵R的主成分因子分析的载荷矩阵A为:
A???1?1,?2?2,?,?m?m,
?特殊因子的方差用R—AAT的对角元来估计,即:
2 ??1??aij2ij?1mMoran’I指数是空间自相关的度量指标,主要用来描述邻近点是否有相似的上升或下降趋势。该值越高,说明受相近的自然因素的影响越大;该值越低,说明受人类活动的影响越大。
n??W(x?x)(xijinnj?x)I=??Wi?1j?1nn?iji?1j?1?(x?x)ii?1n2
xi和xj为分别表示位置i和j处的样本属性值,x为其平均值,Wij为权重矩阵,如果i和j在某一阈值范围内Wij=1;否则,Wij=0。
因子分析法的计算一般经过以下步骤: (1)原始数据的标准化,标准化的公式为zij?xij-xj?j,其中xij为第i个样本的第j个
指标值,而xj和?j分别为j指标的均值和标准差,标准化的目的在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数;
(2)计算标准化数据的相关系数阵,求出相关系数矩阵的特征值和特征向量; (3)进行正交变换,使用方差最大法,其目的是使因子载荷两极分化,而且旋转后的因子仍然正交;
(4)确定因子个数,计算因子得分,进行统计分析。
对于因子分析法的计算过程我们通过MATLAB软件进行了编程,程序以及程序运行结果可参见附录。
表4给出了采样区主要重金属元素的一些基本统计量。
表6 重金属元素富集因子统计
元素 标准差 中值 平均值 最大值 最小值 变异系数 背景值 As 3.02 5.31 5.68 30.13 1.61 0.53 3.60
17
南京师范大学泰州学院本科毕业论文
Cd Cr Cu Hg Ni Pb Zn
224.99 70 162.92 1629.54 9.94 50.06 339.23 238.70 42.02 27.98 50 15.98 45.83 106.43 302.40 53.51 55.02 299.71 17.26 61.74 201.2 1619.8 920.84 2528.48 16000 142.5 472.48 3760.82 40 15.32 2.29 8.57 4.27 19.68 32.86 0.74 1.31 2.96 5.44 0.58 0.81 1.69 130 31 13.2 35 12.3 31 69
运用MATLAB软件进行因子分析后,可以得到以下结果。首先给出了该城区表层土壤As、Cd、Cr、Cu、Hg、Ni、Pb、Zn这8种重金属元素原始含量数据的相关系数矩阵,如表6所示:
表7 变量相关矩阵
指标 As Cd Cr Cu Hg Ni Pb Zn As 1.0000 0.2547 0.1890 0.1597 0.0644 0.3166 0.2899 0.2469 Cd 0.2547 1.0000 0.3524 0.3967 0.2647 0.3294 0.6603 0.4312 Cr 0.1890 0.3524 1.0000 0.5316 0.1032 0.7158 0.3828 0.4243 Cu 0.1597 0.3967 0.5316 1.0000 0.4167 0.4946 0.5200 0.3873 Hg 0.0644 0.2647 0.1032 0.4167 1.0000 0.1029 0.2981 0.1958 Ni 0.3166 0.3294 0.7158 0.4946 0.1029 1.0000 0.3068 0.4364 Pb 0.2899 0.6603 0.3828 0.5200 0.2981 0.3068 1.0000 0.4937 Zn 0.2469 0.4312 0.4243 0.3873 0.1958 0.4364 0.4937 1.0000 利用matlab作聚类分析图如下:(图16)
图16土壤重金属相关元素聚类分析图
据表7和图16可见,Cr和Ni的相关性最好,相关系数最大,为0.7158,其次为Pb和Cd,相关系数为0.6603,以下依次是Cr和Cu,Pd和Cu的相关性较好,相关系数分别为0.5316和0.52,其它元素之间的相关性一般,从成因上来分析,相关性较好的元素可能在成因和来源上有一定的关联。
因子分析的关键就是利用相关系数矩阵求出相应的因子的特征值和累计贡献率,我们利用MATLAB统计软件计算得出了表8:
18
南京师范大学泰州学院本科毕业论文
表8 特征值和累计贡献率
旋转前
因子 总的特征
值
占总变量的百分
率/%
44.4999 14.3774 12.0633 9.5961 7.2197 5.3994
累计贡献率
/% 44.4999 58.8773 70.9406 80.5367 87.7564 93.1558
总的特征值 1.8267 1.0454 1.0318 1.5251 1.0039 1.0195
旋转后 占总变量的百分
率/%
22.8305 13.0711 12.9017 19.0600 12.5521 12.7404
累计贡献率
/% 22.8305 35.9016 48.8033 67.8633 80.4154 93.1558
F1
3.5600 1.1502 0.9651 0.7677 0.5776 0.4320
F2
F3
F4
F5 F6
在累积方差为93.1558% (>90% )的前提下,分析得到6个主因子,可以看到6个主因子提供了源资料的93.1558%的信息,满足因子分析的原则,而且从上表可以看出旋转前后总的累计贡献率没有发生变化,即总的信息量没有损失。同时从表还可得出,旋转之后主因子1和主因子4的方差贡献率均为20%左右,主因子2、主因子3、主因子5和主因子6的方差贡献率的范围是12.5521%到13.0711%,这可以解释为因子1和因子4可能是该城区土壤重金属污染的最重要的污染源,因子2、因子3、因子5和因子6对该城区重金属污染也具有一定的影响。
因子分析的主要目的是将具有相似性的因子荷载的各个变量置于一个公因子之下,正交方差最大旋转使每一个主因子只与最少个数的变量有相关关系,而使足够多的因子负荷均很小,以便对因子的意义做出更合理的解释,得到的结果见表9和表10:
表9 旋转前因子载荷矩阵
指标 As Cd Cr Cu Hg Ni Pb Zn
F1 F2 F3 0.6810 0.2824 -0.3035 -0.3653 -0.2975 -0.1898 0.2372 0.1232
F4 F5 -0.0263 -0.2543 -0.1096 -0.1545 0.1541 -0.0139 -0.1576 0.6539
F6
0.4257 0.7107 0.7350 0.7564 0.4084 0.7228 0.7640 0.6988 -0.1996 0.2814 -0.4440 0.1247 0.6734 -0.5146 0.3143 -0.0374 0.5508 -0.3221 -0.0462 0.1375 0.4487 0.1367 -0.2478 -0.2410 -0.0650 0.3250 0.0982 -0.4081 0.2356 0.1997 -0.2167 -0.0598
表10 方差极大正交旋转后因子载荷矩阵
指标
F1 F2 F3 F4 F5 F6
As 0.1351 0.0160 0.9742 0.1296 0.0835 -0.0427
19