基于回归分析的房价模型及预测解析 下载本文

毕 业 论 文

题 目 基于回归分析的房价模型及预测

学生姓名 王 赛 学号 0809014046 所在院(系) 数 学 与 计 算 机 科 学 学 院 专业班级 数学与应用数学(师范类)专业081班 指导教师 李晓康

论文完成地点 陕西理工学院

2012年5月27日

陕西理工学院毕业论文

基于回归分析的房价模型及预测

王赛

(陕西理工学院数学与计算机科学学院数学与应用数学08级1班,陕西 汉中 723000)

指导老师:李晓康

【摘要】 选取全国几个代表性城市,确定影响房价的主要因素,建立房价的数学模型—多元线性回归模型.首

先用信息增益法找出影响房价的主要因素,确定模型,利用最小二乘法求解模型中的参数,用回归分析确定模型精度及检验,从而得出一个完整的数学模型;接着利用往年数据建立拟合曲线,预测未来四年影响北京市房价的主要因素及房价走势,并进行定量分析;最后根据模型进行预测,分析模型的优缺点并提出改进方向,并给出抑制房价的建议.

【关键词】 房价问题;回归模型;拟合曲线;预测;经济发展

1 引言

房价问题事关国计民生,对国家经济发展和社会稳定有重大影响,一直是各国政府大力关注的问题.我国自从取消福利分房制度以来,随着房价的不断飙升,房价问题已经成为全民关注的焦点议题之一,从国家领导人、地方政府官员,到开发商、专家学者、普通百姓通过各种媒体表达各种观点,但对于房价是否合理、未来房价的走势等关键问题,至今尚未形成统一的认识.

房地产行业作为中国经济的支柱产业,它的一举一动都影响着国民经济的发展以及吸引着媒体和大众的目光.近几年来房地产业已经成为一个社会关注度很高、情绪化影响很大、学术研究水平很低、政策手段很矛盾、调控效果很不确定的产业.而这几年,房价问题越来越受到人们的关注.所以,认清当今的房价现状,对我国相关政策法规的制定、企业发展规划以及普通家庭的置业理财等都大有裨益.

影响房价的因素有很多,如人口增长率、工薪收入、城乡人均储蓄余额、房屋造价、人均全年住房支出、城镇房地产开发投资等.回归分析是确定变量间相关关系的有效方法.本文拟采用信息增益法确定影响房价的主要因素,采用回归分析法建立模型,对未来房价进行分析和预测.

2 基本假设及定义符号说明

2.1基本假设

假设一 所选的城市物价和其他情况相对比较稳定,全局内没有大起大落的现象; 假设二 未来几年不会发生特大自然灾害、战争动乱以及人为伤害; 假设三 房屋建造成本用竣工房屋造价来代替;

假设四 房屋价格通过商品房平均销售价(元/平方米)来表示;

假设五 房价购买能力用人均储蓄存款、人均可支配收入来表示,银行利率每年保持稳定; 假设六 忽略消费成本如交通费用、物业费用、停车费用等对房价的影响; 假设七 供需平衡指:供应量=需求量. 2.2定义符号说明

x1: 表示工薪收入(元);

x2: 表示城乡人均储蓄余额(元/人); x3: 表示造价(元/平方米);

第 1 页 共 15 页

陕西理工学院毕业论文

x4: 人均全年住房支出(元); x5: 竣工面积; x6: 人口增长率; x7: 开发商投资;

Y: 商品房平均销售价(元/平方米);

б 2:序列的方差;

Y,x1,x2,x3,x4分别表示Y,x1,x2,x3,x4序列的均值;

?Y,?x1,?x2,?x3,?x4分别表示Y?Y,x1?x1,x2?x2,x3?x3,x4?x4,即中心化序列; x1,x2,x3,x4: 模型参数; S(a): 为残差的平方和; n: 统计城市数(样本数); t: 年份序号;

?: 中心化序列的协方差.

?t: 为随机变量;

3 模型的建立

下表为我国13个城市商品房平均销售价及其相关因素统计表.依照此表可以求得各因素对商品房平均售价的影响程度,采用信息增益计算法.

表 3.1 13个城市商品房平均销售价及其相关因素统计表

竣工面积

城市

(万平方米)

北 京 天 津 石家庄 上 海 南 京 杭 州 福 州 武 汉 长 沙 成 都 昆 明 拉 萨 西 安 平 均

5225.5 2240.1 7751.0 5719.9 43307.5 40239.7 7435.1 10280.7 10073.8 11393.5 3771.2 177.5 3128.2 11595.7

人口增长率(‰) 3.50 2.60 6.50 2.70 2.56 4.63 6.20 3.48 6.11 2.72 6.08 10.24 4.00 4.7

工薪收入(元)

城乡人均储蓄余额(元/人)

造价(元/平方米) 2219.07 2642.37 1851.67 2923.56 2147.98 2049.83 1509.06 1881.15 1667.34 1403.38 1564.40 999.54 1865.76 1901.9

人均全年住房支出(元) 551.99 450.48 187.24 991.08 512.11 652.20 469.24 289.00 315.10 314.46 432.74 105.27 243.32 424.2

城镇房地产开发投资(亿元) 2337.7 735.2 1520.0 1462.1 3338.5 2254.3 1136.3 1200.4 1084.6 1588.4 737.5 15.7 941.6 1411.7

房价(元/平方米) 13799 6886 3263 12840 4983 7826 5427 3532 2680 3509 2931 2452 3223 5642.4

21105.61 83601.71 14389.10 39781.95 9830.57

19263.99

23172.36 71355.13 13480.72 25994.34 16701.04 34427.49 14211.49 19516.98 10331.51 14271.78 9854.09 9641.68 13326.40 13611.7

12191.34 10213.56 7805.05 28495.7

10132.43 14141.95

10775.37 17878.61

注:上表数据来源为《中华人民共和国国家统计局—年度数据》. 3.1 信息增益计算法

信息增益基于信息论中熵的概念.熵是对事件的属性的不确定性的度量.一个属性的熵越大,它蕴含的不确定信息越大.因此,ID3总是选择具有最高信息增益的属性作为当前结点的测试属性.

设S是s个数据样本的集合.假定类标号属性具有m个不同的值,定义m个不同的类

Ci?i?1,2,3?m?.设si是类Ci中的样本数.对于给定的样本分类所需要的期望信息由下式给出

第 2 页 共 15 页

陕西理工学院毕业论文

I?s1,s2?sm????pilog2pi,

i?1m其中pi是任意样本属于Ci的概率,一般可以用

sis来估计.

设属性x1有v个不同的值?a1,a2,?av?.可以用属性x1将S划分为v个自给?S1,S2,?Sv?,其中Sj包含S中这样一些样本,他们在x1上具有值aj.

设Sij是子集Sj中类Ci的样本数.根据x1划分子集的熵由下式给出

E?x1????j?1vs1j?s2j???smjsI?s1j,s2j?smj?.

上式中

s1j?s2j???smjs充当第j个子集的权,并且等于子集(即x1值为aj)中的样本个数除

以s中的样本总数.

根据上面给出的期望信息计算公式,对于给定的子集Sj,其期望信息由下式计算

I?s1j,s2j?smj????pijlog2pij,

i?1m其中pij?sijsj是Sj中样本属于类Ci的概率.

由期望信息和熵可以得到对应的信息增益.对于在x1上分支将获得的信息增益可以由下面的公式得到

Gain?x1??I?s1,s2?sm??E?x1?.

3.2 确定主要因素

ID3计算每个属性的信息增益,并选取具有最高增益的属性作为测试属性.由上式可以看出,熵值越小时,其信息增益越大,表明相应的信息量越有效.在此采用ID3算法计算出每个属性关于房价的信息增益,而为了测试准确,选取半数以上信息增益较大的属性作为测试属性,即为影响x1的属性.

利用下述公式将原始数据(见表 3.1数据)化为0,1两数值(计算结果见表3.2)

?1??bij???0??aij?aij?a1j?a2j???amjma1j?a2j???amjmi?1,2?m;j?1,2?n

这样统计方便计算其影响房价的因子由房价划分时每个因子的熵,进而求出信息增益,判断出影响房价的主要因子.

表 3.2

城市编号 竣工面积

人口增长

工薪收入 储蓄余额

造价

人均每年住房支出

开发商投

房价

第 3 页 共 15 页