对于全国各省离婚率影响因素的定量分析

互联网上网人数 互联网的应用,加快了信息的传递和交流,同时拉近了人与人之间的交流,对离婚有影响 医疗卫生水平,是影响人们生活从而影响离婚率的间接因素。 卫生机构数(所)

在选取完指标后,通过中经网获得所需要的所有数据。接下来,首先通过相关性分析,确定因素与离婚率之间有无表象关系;然后通过主成分分析,验证因素是否与离婚率具有因果关系;再通过因素的多元回归分析,得出因素对离婚率的影响作用的大小;最后通过层次聚类分析,通过比较离婚率在地域上的分布差异,联系不同地域的经济,人口状况,生活水平的具体情况,研究离婚率的分布是否有规律,是否与社会状况密切相关。

3 文献综述

在汪国华教授的《从熟人社会到陌生人社会:城市离婚率趋高的社会学透视》一文中,总结到现代社会离婚率的上升主要有以下几个原因:

(一)社会结构包括就业结构、城乡人口结构的变化以及经济与人口结构的演变

(二)妇女们的地位包括文化程度的提高和职业性质的改变, (三)离婚立法的变化,在客观上导致了离婚率的上升

(四)家庭中产业结构和城市人口结构的改变以及其所承担的各种重要的社会 功能的变化

(五)现代社会中, 电视、网络等媒体渗透带来的价值观和生活方式的变化, (六)人口流动以及人际关系以及人们心理等的难以估量的因素。

而夏吟兰教授的《对离婚率上升的社会成本分析》文章曾经叙述到以下点 离婚率上升的社会负面效应有:

(一)离婚妇女及其抚养的子女生活贫困化 (二)离婚不利于未成年子女身心健康 (三)离婚率与犯罪率有正相关的关系 (四)高离婚率影响公众对婚姻的信心

从张峻荣教授《经济与婚姻——10 省、市离婚率水平实证分析》看出前人对离婚率的研究方法大多集中在回归分析的方法上,另外一方面,前人对离婚率的研究大多留在对数据的初步观测和定性研究上,而本文主要的方向就是结合前人的定性研究,将定性的研究定量化的过程。

4 数据预处理

在做深入的分析工作之前,率先进行了数据预处理(由于香港,澳门,台湾数据无法获得,暂时不考虑港澳台的状况),并用到了以下数学模型:

(1)直接平均型补充数据法 (2)加权平均型补充数据法 (3)Logistic补充数据法

(4)线性拟合补充数据法等方法

4/24页

在得到相关指标原始数据后,我们进行了数据预处理。

1、在获得大专以上学历占比,农村人口比例等初级数据时,由于某些城市如重庆等出现小规模数据缺失,而且观察数据的变动规律,大概呈线性水平稳定变化,于是采用线性拟合补充数据法。通过线性拟合预测缺失的数据,大部分数据拟合状况良好,显著性水平较高,但也由于某些数据量少,分布规律不明显而预测精度不够高,如西藏。

2、在搜集互联网人数时,大部分地区的数据不成明显的线性分布,考虑到互联网当时处于萌发时期,增长率比较高,就利用逻辑斯蒂克模型拟合数据,其中大部分城市拟合状况非常好,如辽宁,吉林,江苏等,但也有部分地区处于发展较早或较晚,整体不呈现明显规律,以局部进行预测如上海,拟合效果较差,就改用局部二次拟合;另如西藏,新疆,由于发展较缓,增长不明显,采用局部平均法,拟合效果改善了不少。

3、通过那个城市和农村的人口占比比例,对恩格尔系数和城镇人口占比进行加权以后得出整个社会的指标,把城镇和农村科学地加总在一起,减少了误差,提高可信度。如恩格尔系数,因为只存在农村恩格尔系数和城镇恩格尔系数,通过农村和城镇人口占比,作为权数,加权后等到整个社会的恩格尔系数。

4、其他的还有包括2000年的性别比例还有一些全国指标,由于其本身比较近似于随机变动,而且由于已知数据量相对较大,就使用直接平均法预测出其缺失值,相对比模型预测更准确,误差更小。

对于失业率,因为农村没有数据,所以我们直接用城镇的数据来替代了。 城市登记失业率,全社会固定资产投资总额,人均国内生产总值(现价),人口出生率,总负担系数,客运量,卫生机构总数,普通高等学校数,城乡居民储蓄存款年底余额,第三产业占GDP的比重等作为三级指标,大专以上比率,商品房本年人均销售面积,居民家庭人均总收入,居民恩格尔系数,城镇人口比例,居民消费物价指数,作为二级指标。 其中:

该年年均总人口?上年年底总人口?该年年底总人口2?城镇人口该年年均总人口农村人口年均该年总人口 (4-1)

城镇人口占比 农村人口占比 居民恩格尔系数 居民家庭人均总收入? (4-2) (4-3)

(4-4)

入?城镇人口*城镇居民恩格尔系数?农村人口*农村居民恩格尔系数该年年均总人口?城镇人口*城镇居民家庭人均总收入?农村人口*农村居民家庭人均总收(4-5)

该年年均总人口 商品房本年人均销售面 大专以上占比 居民消费物价指数

??积?商品房本年销售面积该年年均总人口 (4-6)

大专以上的毕业生人数该年年均总人口该年 (4-7)

(4-8)

基期1997年?居民消费物价指数

5/24页

5 模型的建立与求解

与离婚率研究相关的三层级指标体系结构如图1所示:

图1 三级指标结构示意图

5.1主成分-因子分析模型

为了更准确探讨我国及各省份离婚率的原因,首先设立与离婚行为密切相关的经济、人口结构及其素质、居民生活3大分类共18个二、三级指标,如表2所示:

表2 三级指标示意表

一级指标 经济 二级指标 三级指标 城市登记失业率 全社会固定资产投资总额 第三产业占GDP的比重 城乡居民储蓄存款年底余额 人口结构及其素质 城镇人口比例 大专以上比率 居民生活水平 居民恩格尔系数 居民家庭人均总收入 商品房本年人均销售面积 人口出生率 性别比(女=100) 总负担系数 普通高等学校数 客运量 互联网人数 卫生机构总数 居民消费物价指数(基期1997年) 人均国内生产总值(现价) 并通过网络、报刊、书籍和权威统计数据库查找出全国及内地22个省、4个

6/24页

直辖市、5个自治区的20年的相关数据,对缺少数据的指标进行筛选、预处理,最后得到2002-2009全国及内地22个省、4个直辖市、5个自治区各个指标的数据。而在多数情况下,不同评价指标之间有一定相关性的,一方面由于评价指标较多而且指标之间有一定的相关性,势必增加了分析问题的复杂性;另一方面则会造成模型参数的过度拟合,降低分类或预测的准确性和可靠性。为了简化运算,提高模型效率,增加分类的准确性,本文建立了主成分分析模型,尽量将经济、人口结构及其素质、居民生活3个一级指标内的原评价指标各自重新组合成一新的、互相无关的几个综合指标来代替原评价指标,组合成3个新的一级指标,并尽可能地反映原指标的信息。最后通过因子分析,给出了经济、人口结构及其素质、居民生活这3个新一级指标内各个综合指标的得分及其和,并依据不同主成分在所在一级指标组内解析信息百分比加权算出各个指标对济、人口结构及其素质、居民生活的相对贡献率。

5.1.1 二、三级指标数据预处理: 由于在统计学中,平均值是集中趋势的最主要测度值,同时从统计思想上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。所以,利用平均数作为代表值,可以使误差相互抵消,反映出事物必然性的数量特征。 于是在选择数据的时候,我们特地采用各项指标2002~2009年的数值平均数作为我们模型的基础数据。

我们根据相关性表,发现人口出生率、性别比、总负担系数、居民恩格尔系数、卫生机构总数分别与粗离婚率呈负相关性。为了统一相关性方向,以便更准确评价经济、人口结构及其素质、居民生活3个一级指标与粗离婚率的相关关系,我们对与粗离婚率呈负相关性的5个指标的数据乘以-1,使得新的人口出生率、性别比、总负担系数、居民恩格尔系数、卫生机构总数分别与粗离婚率呈正相关关系。

最后对各项指标2002~2009年的数据平均值进行标准化处理。

5.1.2 KMO检验和Bartlett检验 录入数据,并运用统计数学软件Linear过程对数据进行主成分分析,首先对数据进行KMO检验和Bartlett检验,以观察样本数据是否适合进行主成分分析,进而得出相关系数矩阵及其特征值、贡献率及累积贡献率等。

表3 KMO检验和Bartlett检验

KMO and Bartlett's 检验 经济 人口居民结构及其素质 Kaiser-Meyer-Olkin检验值 Bartlett球度检验伴随概率 生活 0.546 0.733 0.581 0 0 0 从表中得知,KMO值均大于0.5。根据统计学家Kaiser教授给出的标准,KMO>0.5

7/24页

联系客服:779662525#qq.com(#替换为@)