tm
[4]汪国华,从熟人社会到陌生人社会:城市离婚率趋高的社会学透视[J],背景科技大学学报 社会科学版,第23卷 第1期,2007.
[5]夏吟兰,对离婚率上升的社会成本分析[J],甘肃社会科学, 1003-3637(2008)01-0023-05,2008.
[6]张俊荣,经济与婚姻——10省、市离婚率水平实证分析[J],法制与社会,1009-0592(2008)08-358-01,2008.
[7]葛新权,王斌,应用统计[M],北京:社会科学文献出版社,2006.
[8]贾俊平,何晓群,金勇进,统计学[M],北京:中国人民大学出版社,2009.
[9]柯惠新,沈浩,调查研究中的统计分析法[M],北京:中国传媒大学出版社,2005. [10]余建英,何旭宏,数据统计分析与SPSS应用[M],北京:人民邮电出版社,2003. [11]汪远征,SAS软件与统计应用教程[M],北京:机械工业出版社,2007. [12]王芳,SAS统计分析与应用[M],北京:电子工业出版社,20011.
9【附录】——模型准备
9.1主成分-因子分析模型的准备 ●主成分分析原理:
主成分分析[6]是设法将原来众多具有一定相关性(比如p个指标)的指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示
F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故
称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)?0,则称F2为第二主成分,以此类推可以构造出第三、第四??第p个主成分。
设对某一事物的研究涉及p个指标,分别用X1,X2,...,Xp表示,这p个指标构成的p维随机向量为X?(X1,X2,...,Xp)。设随机向量X的均值为
对X进行线性变换,可得m个新的综合变量,用Y表示,即满足下式:
?Y1?a11X1?a12X2?...?a1pXp??Y2?a21X1?a22X2?...?a2pXp ?: (9-1)
??Y?aX?aX?...?aXm11m22mpp?m
由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y的统计特征也尽不相同。而求主成分问题要求新的综合指标必须满足两个条件:
(1) 新的综合指标彼此独立,即二者相关系数为零。
20/24页
(2) 新的综合指标反映了样本总信息。
根据方差最大化原理,主成分问题实质是变量间方差最大化问题。 Var(Yi)?Var(aiX,)?ai,Cai (9-2)
ai?(ai1,ai2,...,aip),C为协方差矩阵
若不对ai进行限制时,可使Var(Yi)任意增大,因此,我们可以再增加一个线性变换约束条件:
aiai'?1 (9-3) 基于上述原则和条件决定的综合变量Y1,Y2,?,Ym,分别称为原始变量的第一,第二,?,第p个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究中工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构、抓住问题实质的目的。
9.2多元回归分析模型的准备 ●多元线性回归分析的原理:
定义:在实际问题中,影响因变量的因素往往有多个。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,成为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型类似,只是计算上更为复杂,一般需借助计算机来完成。
计算公式:
设随机变量y与一般变量x1,x2,?,xk的线性回归模型为: y??0??1x1??2x2???kxk?? (9-4)
其中,?0,?1,?,?k是k?1个未知参数,?0称为回归常数,?1,?,?k称为回归系数;y称为被解释变量(因变量)。x1,x2,?,xk是k个可以精确测量并可控制的一般变量,称为解释变量(自变量)。
通常假定:
?E(?)?0 ? (9-5) 2var(?)???其中,?是随机误差。
多元线性样本回归方程为:
????x???x????x (9-6) ??? y01122kk?,??,?,??为?,?,?,?的估计值。 式中,?01k01k
?,??,?,??的原理是最小二乘法得到,通过求解下列方程组得求解估计值?01k到:
21/24页
??SSE??????2?(y?y)xi?0(i?1,2,?n)?i???SSE??2?)?0(y?y? ? (9-7) ???0
9.3改进的差异层次聚类分析模型的准备 ●层次聚类中分析中的Q型聚类的原理:
定义:聚类中分析中的Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析。
层次聚类分析中,测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲疏程度。
连续变量的样本距离测量方法:欧式距离平方
两个样本之间的欧式距离平方是个样本每个变量值之差的平方和,计算公式为:
k SEUCLID?其中,k表示每个样本有k个变量;
?(xi?1i?yi)2 (9-8)
xi表示第一个样本在第i个变量上的取值; yi表示第二个样本在第i个变量上的取值;
样本数据与小类、小类与小类之间亲属程度测量方法:重心法
将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。
22/24页