多元统计分析方法在区域经济领域的应用及区
域经济发展差异指标的研究
武汉理工大学组
组长:刘京
组员:张扬 薛彪 唐正霜 沈亦天 赵一 于晓龙 王淼 池浩斌 洪婉芳 唐晓军 周溪 罗洋 贾龙波 万恩铭 胡朝根
引言:
我国改革开放发展市场经济以来,经济保持了高速增长的势头,取得了举世瞩目的成绩,我国的改革开放是渐进式的,这避免了经济制度的突然变革给社会发展带来的诸多弊端,但是也使得区域间经济增长不平衡问题突显。如何对通过多元统计学的方法对区域经济进行分析并进行合理的划分,并对区域经济差异原因进行研究,剖析各区域经济发展不平衡的各方面原因,针对各地区经济发展问题进行分析并提出科学的建议,有利于更加准确对我国区域经济发展状况进行了解并促进各区域经济平衡发展。
另外,根据2011年国家统计局公布的2011年1-3季度全国经济运行数据,其中最表征一个国家地区经济实力的国际通用指标—GDP为320692亿元,同比去年增长9.4% ,2011年9月份,全国居民消费价格总水平CPI同比上涨6.1%。2011年中国经济面对比较复杂的国内外经济环境,中国经济在前三季度仍然保持了平稳较快的发展。但不可否认,中国经济增速开始减缓,通胀压力日益增大。而且由于通胀压力的增大,地区经济发展不平衡的问题日益突出。本文拟以实证的方法, 对地区经济差距做一些分析, 并通过差异指标对中国区域经济状况进行了的测度解读,并讨论其在区域经济差距中的影响及其经济增长效应。 本文提供的关于区域经济划分的一个主要思路:我们可以通过选择某几个对区域经济影响比较大的差异指标作为变量,收集这些变量的历史数据,寻找这些变量之间的关系,根据这些变量的性质和之间的关系选择一个对应的多元统计分析方法,选择方法之后,再对这些数据进行处理,如果是聚类分析法,那么就可以将某个范围的数据进行聚类,从数据的角度进行相似性分析,这样就可以对区域经济进行划分,也可以继续研究这些差异指标对区域经济发展的影响,确定这些差异指标的作用大小,寻找差异原因和解决方法,并给于政策建议。
关键词 区域经济 多元统计分析方法 聚类分析 经济差异指标
1. 多元统计分析方法综述
多元统计方法是数理统计学中近二十年来迅速发展起来的一个重要分支。它是实用性很强的一门学科,尤其是近年来计算机的普及,使得多元统计方法在许多领域中,例如生化、医药、地质、气象、工程技术、社会经济、企业管理、教育学、人文科学等都得到日益广泛的应用。因此,这门学科受到了科学工作者、工程技术人员的普遍重视。如何将隐藏在大规模原始数据群体中的重要信息集中提炼出来,简明扼要地把握系统的本质特征,找出原始数据中隐含的内在规律,这就是多元统计数据分析所要解决的问题。
多元统计学方法可以分为回归分析 、趋势面分析、判别分析、聚类分析、主成分分析和因子分析、色谱分析法等。下面就以聚类分析方法对区域经济进行分析。
1.1多因素方差分析法:
在科学试验和生产实践中,影响一事物的试验结果因索往往是很多的,例如,在化肥的生产过程中,影响化肥产品质量的可能因素有,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的技术等因素。每一因素的变化都有可能影响产品的数量和质量,显然在众多因素中,有些因素对产品的质量影响较大,有些较小,为了使生产过程得以稳定、保证优质、高产,就有必要在众多因素中找出对产品质量有显著影响的那些因素,而方差分析就是根据试验的结果进行分析,进而鉴别各个有关因素对试验结果影响程度的一种统计方法。
在实验中,我们将试验结果又称为试验指标,影响试验指标(试验结果)的条件称为因素。因素可分为二类,一类是人们可以控制的(可控因素);一类是人们不能控制的。以下我们所说的因素都是可控因素。因素所处的状态,称为该因素的水平。如果在一项试验中只有一个因素对试验结果有影响称为单因素方差分析,如果多于一个因素对试验结果有影响
称为多因素方差分析。简言之方差分析的研究对象就是研究因素对试验结果的影响程度是否显著。但多因素方差分析计算比较困难,准确度也不高,一般多用单因素方差计算和双因素方差计算。
1.2多元回归分析方法:
当变量间的关系为在生产过程和科学实验中,我们经常是需要研究变量与变量间的关系。变量间的关系,总的来说可分为两种,即函数关系和相关关系。
确定性关系,即对于一个变量的每一个值都有另一个变量的一个或几个完全确定的值与它对应,我们就说变量间存在函数关系,对两个变量的函数关系可表示为y?f(x),一旦变量间的函数关系建立,事物发展变化的规律就随之确定。由此可以看出,建立变量间的函数关系,研究函数关系在生产实践中就显得特别重要。 然而在许多实际问题中,由于各种关系错综复杂,要精确的建立变量间的数学表达式又特别困难,同时很多工程问题的变量之间还受到其它偶然因素的影响,使它们之间的关系具有不确定性,因此在这种情况下要建立准确的数学关系是不可能的,该如何解决这个问题呢? 回归分析方法就是在大量试验观测数据的基础上,找出这些变量之间的内部规律性,从而定量地建立一个变量和另外多个变量之间的统计关系的数学表达式。因此简单地说,回归分析就是研究一个变量与其它变量间关系的一种统计方法。
回归分析中被回归的变量y称为因变量,影响y变化的其它变量x1,x2,?,xm称为自变量。如果自变量只有一个,称为一元回归;如果自变量是两个或者以上,则称为多元回归;如果y与x1,x2,?,xm间的关系是线性的,则称线性回归,否则称非线性回归。
1.3判别分析法:
判别分析是由Pearson于1921年提出,当时主要是为了解决人种的定量识别以及考古的需要,直到1936年Fisher才第一次提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪个已知类别的数学模型,从此以后判别分析得到广泛的应用。
判别问题或称识别问题(又可称为归类问题)在生产、科研和日常生活中是经常遇到,例如,某个病人生病了,医生可根据这个病人的体温高低、白血球数目多少等项检查作出判断该病人是患了感冒病、肺炎病,还是其它病。这里病人患病可看成待判样品,体温高低,白血球多少,可看成特征变量,感冒病、肺炎病可看成不同总体。医生诊断的过程是根据病人的体温、白血球等多项指标,来判断病人是患了感冒病、肺炎或其它的病,这显然是一个识别问题或者说是归类问题。
又如,在地质勘探中,根据某地区发掘的矿石标本的多项指标,来判断该地区地下是何种矿藏,并进而确定是富矿还是贫矿。这里把各种矿藏看成不同总体,矿石标本看成是样品,根据矿石标本判断是何种矿藏,就是判断样品归属于哪一个总体的判别分析问题。 再如,在天气预报中,根据现有的数据资料(如气温、气压等)来判断明天是晴天还是阴天、雨天。这里,把睛、阴雨等天气,看成是不同的类别,现有资料看成是待判样品,这显然也是一个判别分析问题。
此外,在动植物的分类、社会调查、考古研究、刑侦等领域中都在广泛的应用判别分析方法。
于是我们给出判别分析问题的一般提法是:设有k个总体G1,?Gk,已知待测样品X来自k个总体的某一个,但不知X究竟来自其中的哪一个。判别分析就是要根据对k总体的已知知识和对待判样品X的某些特征指标值,去判断样品X应归属于哪一个总体。
从上面的分析,可以看出:要对待判样品作出正确的归类,首先要对不同总体的性质和特征进行研究,为此首先我们来解释所谓的同一总体是指的什么?同一总体是指具有相同属性或特征指标的样品集合。在同一总体内样品间具有相似性且样品间距离较小。反之,不同总体样品所代表的属性不同,且不同总体的样品间相似性很小或不具备相似性,也可说不同总体间距离很大,简言之,同一总体样品间距离小,不同总体样本间距离大,需要说明的是,在实际问题中总体与总体间在某些性质和特征上又可能存在不同程度上的重迭,比如,在人
种的识别过程中,需要区分白种人、黄种人、黑种人,如果我们只在这三个总体中提取一个特征变量(观测指标)皮肤颜色,就可能对待判的某人错分,因为黄种人中,也有皮肤白的,错分的原因是三类人种就皮肤颜色这一特征指标可能发生重迭,若我们再加上身高,头发,体形等多项特征指标,就可减少总体间的重迭,便于区分。
1.4聚类分析法: 为了研究各个事物间的相同点和不同点,往往要对各种事物进行分类,传统的分类主要依靠经验和专业知识,很少使用数学思想。随着人们对各领域研究的深入,对分类的要求越来越细,以至单纯的依靠经验和专业知识进行的分类无法满足人们的需要,于是统计的方法被引入到分类学中,伴随多元统计方法的发展,分类学中分离出了聚类分析的这个分支。聚类分析的基本思想是:我们所研究的样本间不同程度的存在相似性,于是可以根据不同样本的多个指标,找到能够度量样本间相似度的统计量,以这些统计量为依据, 按相似程度的大小把不同样本聚类,相似程度大的聚在一类,各类别间的相似程度不同这样就将样本分为若干类,便于比较同一类的相似处和不同类之间的区别。
1.5主成分分析方法:
在实际工程问题的统计分析中,为了获取充分的信息,对问题作出较可靠的推断,我们往往选择多个特征变量(指标)去进行观测,而这些特征变量甚至会多到十几个或几十个,因为每个特征变量都在不同程度上反映所研究问题的信息。但是,特征变量个数太多常常会增加对问题分析的复杂性。因此,人们自然希望选取的特征变量个数较少而得到的信息较多。在很多情况下,这些特征变量之间有一定的相关关系,当两个特征变量有一定相关关系时,可以解释为这两个特征变量反映的信息有一定的重迭。于是,从数学上考虑,就是要求有这样一种数学方法:对原来提出的所有特征变量(设为p个)综合成尽可能少的几个(设为q个,q
例如,在服装定型的研究中,要加工一件上衣,需要测量身长、袖长、领围、袖围、胸围、腰围、肋围、肩宽、肩厚、背宽等十几项指标,显然可以看出上述这些指标之间有一定相关关系。现在的问题是如何从这些指标中综合出较少的几个主要指标,由此根据这少数几个主要指标,使加工出来的上衣就能适合大多数人的体型,也就是说,这几个综合指标已充分把握了上衣的主要特征。事实上,服装厂加工上衣是根据衣长、胸围、型号(肥、瘦)这三个综合指标,使加工出来的上衣能适合绝大多数人穿用。
主成分分析就是为解决类似于上述问题而引进的统计方法。简而言之,主成分分析是研究如何将多个特征变量综合成少数几个变量的一种统计方法。
1.6因子分析法 基本思想:
很多变量间存在着某种相似性(彼此之间相关系数较高),本质上影响这些变量观测值结果的可能是其背后看不到的共同原因所致。因子分析就是要从彼此相关的变量中找出这些原因。
作法:
用较少数个公共因子的线性组合与特殊因子的之和来表示原观察变量,以便达到降维的目的,并清楚暴露新变量与原变量间的相关关系。主成份分析是寻求因子的一种方法。 1.7色谱分析法
色谱分离是一个非常复杂的过程 它是色谱体系热力学的综合表现 。 热力学过程是指与组分在体系中分配系数相关的过程 ;动力学过程是指组分在该体系两相间扩散和传质的过程 。 组分 、流动相和固定相三者的热力学性质使不同组分在流动相和固定相中具有
不同的分配系数 ,分配系数的大小反映了组分在固定相上的溶解———挥发 面 ,也更具有针对性 ,因人而异。 或吸附———解吸的能力 。 分配系数大的组分在固
定相上的溶解或吸附能力强 ,因此在色谱柱内的移动速度慢。 反之 ,分配 系数小的组分在固定相上的溶解或吸附能力弱 ,在柱内的移动速度快 。 经过一定时间后 ,