一、 问题的提出
现实中存在着这种现象:各个地区间的人均寿命存在差异,是什么因素造成了地区间的这种差异呢?在这篇文章中,我们以2010年全国的各地区的人均寿命以及一些相关数据来进行分析,寻找造成各地人均寿命存在差异的原因。 二、 模型设定
研究各地区人均寿命的差异,我们通常考虑以下几个因素对寿命的影响。 各地区的人们生活水平通常影响着各地区的人均寿命,我们以人均GDP来衡量各地区生活水平,各地区的卫生机构数可能对人均寿命产生影响,不同地区的环境状况也可能对人均寿命产生影响,我们以单位面积污染比来反映环境状况,以及研究教育支出对人均寿命是否产生影响。 二、收集数据
地区人均寿命 地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 y 人均GDP 卫生机构数6176 2983 20663 13736 7852 12564 5544 8038 5136 12813 17034 6705 9807 8048 17118 10764 11065 24678 13499 单位面积污染比x3 教育支出(万元)x4 (万元)x1 x2 76.1 74.91 72.54 71.65 69.87 73.34 73.1 72.37 78.14 73.91 74.7 71.85 72.55 68.95 73.92 71.54 71.08 70.66 73.27 1.826647 1.637722 0.762505 0.506099 0.590645 1.115932 0.679042 0.854479 2.7734 1.171384 1.31339 0.483334 1.149581 0.482784 0.949371 0.54149 0.717503 0.562615 1.253695 18440 14822.0339 4978.78788 4070.55215 387.642276 6205.26316 1580.51282 884.662577 89086.6873 8484.11215 6140.56604 2720.68966 2262.4 1275.86207 7659.74843 4273.56322 2909.74359 1629.68037 4291.75258 2503068 685499.8 1559084.1 794624.1 580861.6 1463314.7 902941.6 1175133 2008864.6 2905677.2 2200449.9 1129954 1225753.9 752776.6 2462775.5 1709181.4 1706416.4 1523036.8 3609720.5
广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 71.29 72.92 71.73 71.2 65.96 65.49 64.37 70.07 67.47 66.03 70.17 67.41 0.431608 0.657136 0.514017 0.4662 0.264518 0.460997 0.455271 0.455796 0.384576 0.509845 0.479368 0.737891 13707 2689 9375 33351 8992 13356 1237 10737 7191 1847 1361 6705 1872.76423 934717.9 1225.9887 223093.3 2234.19204 698720.6 940.748031 1619987.5 2193.22034 528486.6 668.856448 976174.5 1.18110236 81549.8 1111.68224 1014584.4 597.014925 535287.2 80.9333333 128177.5 2088.15029 148649.4 116.407186 702243.4 表一(来源于国家统计局网站)
三、建立模型并回归
建立回归方程:
Y=a0+a1*X1+a2*X2+a3*X3+a4*X4+u
Y表示地区人均寿命,X1为人均GDP (万元),X2为 卫生机构数,X3表示单位面积污染比,X4为 教育支出(万元)
运用OLS估计方法对模型中的参数进行估计,得回归分析结果:
Dependent Variable: Y Method: Least Squares Date: 06/10/11 Time: 11:09 Sample: 1 31
Included observations: 31
Variable C X1 X2 X3 X4
R-squared
Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
Coefficient 65.97646 4.982104 7.02E-05 -2.99E-05 5.41E-07
Std. Error 1.130331 1.659454 7.05E-05 4.42E-05 7.19E-07
t-Statistic 58.36916 3.002254 0.995813 -0.676988 0.753409
Prob. 0.0000 0.0059 0.3285 0.5044 0.4580 3.191195 4.390815 4.622103 12.21726 0.000010
0.652727 Mean dependent var 71.24387 0.599300 S.D. dependent var 2.020053 Akaike info criterion 106.0960 Schwarz criterion -63.05763 F-statistic 1.285255 Prob(F-statistic)
从以上的结果中可得到回归方程为:
Y = 65.97646 + 4.982104*X1 + 7.02E-05*X2 -2.99E-05*X3 +5.41E-07*X4
1、模型的经济意义检验
Y = 65.97646 + 4.982104*X1 + 7.02E-05*X2 -2.99E-05*X3 +5.41E-07*X4 回归方程表明:
⑴ X1人均GDP(万元),X2 卫生机构数,X3单位面积污染比,X4 教育支出都为0时,地区人均寿命是65.97646 。表明没有任何卫生机构没有污染和教育支出等因素的影响下 ,人均寿命约是66岁。 ⑵ 当其他条件不变,每增加一单位的人均GDP,人均寿命大约增长5岁。
⑶ 当其他条件不变时,每增加一单位的卫生机构,人均寿命增加 7.02E-05个单位。
⑷ 当其他条件不变时,每增加一单位的面积污染比,人均寿命减少2.99E-05个单位。
⑸ 当其他条件不变时,每增加一单位教育支出,人均寿命增加5.41E-07个单位。 2、统计检验
(1)F检验:针对H0:a1=a2=a3=a4=0,给定显著性水平??0.05, 在F分布表中查出自由度为k-1=4和n-k=26的临界值为2.74。由表
中可得F=12.21726,由于F值大于临界值2.74,应拒绝原假设H0:a1=a2=a3=a4=0,说明回归方程显著,人均GDP,卫生机构数,单位面积污染比,教育支出联合起来确实对人均寿命有着显著的影响。 (2)进行t检验:原假设为H0:aj=0(j=1,2,3,4),给定显著性水平
??0.05,查t分布表得自由度为n-k=26得临界值为2.056,由上表中可
知,与各个回归系数对应的t统计量分别为3.002254,0.995813,-0.676988,0.753409,也就是说,接受原假设H0:a2=0,a3=0,a4=0。拒绝原假设H0:a1=0。所以在0.05的显著性水平下,卫生机
构数 ,单位面积污染比,教育支出对人均寿命没有显著性影响,只有人
均GDP对人均寿命有着显著的影响。
因此,由t检验的结果,剔除解释变量x2,x3,x4,只研究人均GDP对人均寿命的影响。
现在单独对人均寿命和人均GDP进行回归。回归结果为
Dependent Variable: Y Method: Least Squares Date: 06/10/11 Time: 11:34 Sample: 1 31
Included observations: 31 Variable C X1
R-squared
Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
Coefficient 67.51013 4.595126
Std. Error 0.706123 0.732651
t-Statistic 95.60675 6.271917
Prob. 0.0000 0.0000 3.191195 4.397756 4.490271 39.33694 0.000001
0.575632 Mean dependent var 71.24387 0.560999 S.D. dependent var 2.114395 Akaike info criterion 129.6494 Schwarz criterion -66.16521 F-statistic 1.169499 Prob(F-statistic)
最后的回归方程为 Y = 67.51013 + 4.595126*X1