标是同步变动的。六个指标的贡献率之和不高,而且还说明经济是一个复杂的方面,在这方面,还存在其他更多的指标对离婚率有影响作用,需要考虑更多指标。
在“人口机构及其素质”中,出生人口率和总负担系数的贡献率相近,分别代表了生育水平和单位劳动力的承受抚养压力,说明在婚姻关系中,孩子是一个维系婚姻关系的重要因素,而抚养压力则也代表家庭压力的部分。六个指标的贡献率总和比较高,说明所选指标的代表程度较好,解释度高。
而在居民生活方面,我们得出大部分指标对离婚率的影响很小,对此有两种解释:其一是所选的指标代表性不够,与我们大众对生活水平跟离婚率之间关系有明显关系的印象不符;其二是由于经济中的指标对离婚率确实有影响,而收入的影响作用却很低,大概是因为收入水平的调整并没有跟上经济发展的步伐,生活质量的指标没有同步跟上。
5.2.2 基于不同年份: 其次,通过对全国的指标对2002年~2009年的数据做时间上的多元回归分析,采用逐步回代的筛除变量的方法,得到以下回归情况如表:
表14 多元回归结果2
Model 常数 人口结构及其素质F1 -0.519 0.04 系数1.508 伴随概率 0 0.04 .729a 0.531 0.453 F检验值 R R Square Adjusted R Square
由表知道,本次回归同时满足F检验和T检验的模型只有一个:
??1.508?0.519x? y(5-7)
其中,?1表示,人口结构及其素质F1每增加一单位,离婚率平均减少一单位
同时,由调整的多重判定系数Ra2?0.453?45.3%知道,在自变量调整后,在离婚率取值的变差中,能被经济、人口结构及其素质和居民生活因素的多元回归
方程所解释的比例为45.3%。
同理,依据校正后的因子得分系数表,可对人口结构及其素质第一主成分内各指标进行加权,得出指标对离婚率的贡献率:
表15 在不同年份间,指标对离婚率的贡献率
城镇人口比例 贡献率 人口出生率 人口结构及其素质 性别比 总负担系数 大专以上比率 普通高等学校数 -0.13289 -0.10927 -0.06608 16/24页
-0.12366 0.055003 -0.01477
由于在逐步回代过程中,为了消除多重共线性而剔除其他可替代变量,保留作用最大最综合的变量,也在一定程度上说明了人口结构及其素质第一主成分(F1)起最大最有代表性的作用,同时结果表明沿着年份,从全国范围来看,第一主成分(F1)对离婚率变化具有接近一半的解释程度。表明从全国范围看,排除掉不同省之间结构的影响后,影响粗离婚率的变化最主要因素来自人口结构及其素质第一主成分(F1),即主要来自城镇人口比例、总负担系数、人口出生率的影响,分别代表了城市化程度和家庭老人、孩子的因素,这点和此前对离婚率的定性研究是吻合的,所以此结果亦具有参考价值。
虽然由结果可以看到可决系数和调整的多重判定系数都不高,但这并不代表模型失败,它更确切的表明了,离婚率实际上与更多因素相关,需要更多的指标才能更全面的解释离婚率的变化情况。而研究离婚率与不同省份的指标间关系时23.4%的解释程度和与不同年份的指标间关系时45.3%的解释程度恰恰表明了在本文选取的研究指标中,能够对离婚率解释不是完整的,恰恰也解释了本文没有涉及到的心理因素、家庭因素、法律因素等对离婚率的影响是具有分量的。但是,由于上述因素的数据获取难度,本文不做针对性研究。但是在本文中应用到的多元回归模型在解决此类问题具有一定的参考价值。
5.3改进的层次聚类分析模型
在层次聚类中,对22个省、4个直辖市、5个自治区分别对离婚率、经济指标、居民生活指标和人口结构及其素质指标进行层级聚类各自分为低、中、高三组。
在本次层次聚类的过程中,由于直接层次聚类带来个别分类组内成员数过少,我们采用以下迭代方法对聚类方法进行改进。 在一次层次聚类中,
Step.1我们通过先剔除包含过少成员数的组别,并保留其原有分类的高、中、低属性。
Step.2对剔除后剩余的成员进行再一次层次聚类,如果分组较为均衡(低、中、高分布较均衡),采纳层次聚类结构。如果分组仍然存在个别组包含过少成员的情况,则回到第一步。
Step.3将剔除的成员,按照其原有的高、中、低属性加合并如对应的分组。
Step.4对现有分组,以该项指标按顺序编排,并以3代表高、2代表中、1代表低。
做完四次层次聚类,得到如下分组情况:
17/24页
图2 分组聚类情况
并对以离婚率为主参照量,做出解释情况表(详见附表2)。
从解释情况表,结合众数代表顺序数据的集中趋势,我们观察高、中、低离婚率分别得到一下信息:
对于高离婚率省份,具有低经济、高人口结构及其素质、中居民生活的集中趋势
对于中离婚率省份,具有低经济、中人口结构及其素质、中偏高居民生活的集中趋势
对于低离婚率省份,具有低经济、低人口结构及其素质、低居民生活的集中趋势
由此可见,离婚率在不同省份中,以人口结构的集中变化最为显著,居民生活集中变化为次,经济的集中变化不明显。
6 研究结论及总结
在整个研究过程中,结合文献综述通过大体上对离婚率的认识,假设18个指标作为研究离婚率问题的指标。通过相关分析,做出18个指标与离婚率的相关系数(如表1),初步验证三个方向共18个指标拥有表面相关性。为了简化运算,提高指标代表性,采用主成分分析方法,得到了结合指标间的关系,将18个指标合成为6个综合指标,并通过因子分析,得出综合指标的得分情况。同时,为了进一步验证指标与离婚率之间的关联性,采用多元回归分析方法,得到了指标对离婚率的解释度与回归方程,在此解决了什么因素对离婚率有影响,影响程度多少的问题。最后,将指标归结为三大方向指标,并通过改进的层次聚类分析得到不同地区之间的结构差别,并由此解决离婚率与三大方向指标在不同地区的分布结构问题。
综合整个文章,通过一步一步递进改变做出的因子成分表,本文得出所研究的指标究竟哪个指标对离婚率解释最多。此外,本文在直接研究离婚率问题的时候,同时发现了对研究离婚率所潜在的问题,也就是本文在回归分析中所考虑欠周到引起指标缺乏,对离婚率的解释不够完全的情况。但总的来说,对于本文所研究的离婚率的问题,以及在本文的研究范围内,对离婚率得到了以下结论:
对不同省份和不同年份来说,离婚率确实与经济、人口结构及其素质、居民生活水平有关,并且以人口结构的集中变化最为显著,居民生活集中变化为次,经济的集中变化不明显。
18/24页
7 模型的评价、改进以及推广
7.1 主成分-因子分析模型的评价及推广
优点:模型一通过主成分分析将数据进行组合,选出具有代表性的指标来替代原有数据,然后对新指标进行因子分析等数学模型并得到了全国及各省份、直辖市与离婚率相关的经济、人口结构及其素质、居民生活水平三方面综合得分情况,过程辅以统计数学软件完成,得到的结果比较简便、完整﹑精确。
缺点:由于模型一采用的是统计学的原理,模型一需要足够多的数据才能做到更加精确,误差更小。而缺点正是数据量不够大,模型一需要更多的数据才能将误差降低,使结果更加符合实际情况。
推广:模型一主要采用的主成分-因子分析模型,在研究不同年份或不同省份、国家与离婚率的经济、人口结构及其素质、居民生活水平三方面相关综合情况都能够得到使用,如果加上聚类分析模型,我们就能够研究经济、人口结构及其素质、居民生活水平三方面在不同省份或不同年份对离婚率进行分析。例如研究某省市的离婚率变动与经济、人口结构及其素质、居民生活水平三方面的关系。同时,主成分-因子分析模型也能够在类似的定性问题定量化的研究中发挥其用途。
7.2多元回归分析模型的评价及推广
优点:模型三通过多元回归的方法计算得到了粗离婚率与一级指标之间的相关程度,并且在此基础上,通过对比相关系数,筛选得到影响粗离婚率的关键性指标与不明显指标。
缺点:由于模型三是对这一部分数据进行回归,不能够综合所有指标的情况,具有一定的误差
推广:由于模型较容易理解,并且能够清晰的描绘出变量之间的相关系数,此模型被广泛应用于社会统计当中。
7.3改进的差异层次聚类分析模型的评价及推广
优点:模型二通过对比四次层次聚类分析的聚类情况,并且通过迭代筛选偏离程度太大的数据,从而得出离婚率与因子指标的关联性的集中趋势,使得聚类分布更加均匀,更具有参考价值。
缺点:由于聚类方法上造成的系统误差不稳定,不能够大范围运用,同时当数据量足够大的时候,会出现一些偏高的数据,可能会使聚类效果不够具有显著性。
推广:此模型可以用于强调出某一因素与其他因素的关联性,能够运用到关联性的探索性研究中。
8 参考文献
[1]中经网统计数据库,____ ,综合年度库
http://db.cei.gov.cn/
[2]新浪博客,2011, 离婚率计算方法的学术拨正.
http://blog.sina.com.cn/s/blog_7f7665d60100ruld.html. [3]相关分析原理介绍,____ ,相关程度.
http://www.jswl.cn/course/a1016/tongjimiaoshu/1/xiangguanchengdu.h
19/24页