用多元回归模型解决脉矿问题
摘要
在脉矿的周围,若选择某一点为原点,则金属含量的分布与距离这一点的距离有关,而这一关系可以用数学函数关系式近似描述。
针对本问题,我们根据表中给出的数据,先画出散点图,观察两者之间的关系,假设出线性回归模型,用统计分析原理,结合matlab软件编写程序,不断地去除异常值,建立了最优回归模型,y?0.94x?168。
本文我们用一元回归模型,近似的描述了金属含量与距离的关系(假设原点已知)。并对模型不断改进,在文章的最后对模型的适用范围做出了推广,在实际应用中有较大的参考价值。
关键字: 一元线性回归
一、问题重述
一矿脉有13个相邻样本点,人为地设定一原点,现测得各样本点对原点的距离x,与该样本点处某种金属含量y 的一组数据,画出散点图观测二者的关系,试建立合适的回归模型,表达二者之间的关系。
二、模型假设
1.在测量的过程中不排除操作的误差,如测量时数据读错,原点选择不一样等。
三、符号说明 序号 1
符号 符号说明 置信水平 ? 四、模型的建立和求解
一矿脉有13个相邻样本点,人为地设定一原点,现测得各样本点对原点的距离x,与该样本点处某种金属含量y 的一组数据,画出散点图观测二者的关系,试建立合适的回归模型,表达二者之间的关系。
4.1. 问题一的分析
本问题要求我们建立合适的模型,描述某金属含量与距样本原点距离的关系,我们首先应根据表格中给出的数据用matlab软件画出y关于x的散点图,观察散点图的大致形状,思考这种形状与那种函数的形状大致相同,如一元函数,多元函数,二次曲线,双曲线,对数曲线等等。我们先尝试建立回归模型进行拟合,用统计分析决定优劣。编写matlab程序,拟合结果用P的来衡量,若P的值远远大于给定的置信水平?的值,则说明该回归模型能很好的描述两者之间的关系;否则,观察散点图总是否存在异常点,若存在,去除异常点,再次把P的值与?的进行比对,如果P得值还是远小于?的值,则放弃该模型,选择另外一种模型进行拟合。
4.1.2 问题一的模型建立
置信水平?的定义[1]
置信水平是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率。
Step1:用matlab编程画出y关于x的散点图,并建立回归模型;
Step2:用统计分析决定优劣,即把P的值与?的值进行比对,确定所建模型是
否合适,如不合适,观察是否存在异常数据,若存在,去除异常数据,
对模型进行再次检验。
Step3:重复Step2步骤,直到找出合适的回归模型。
4.1.3 问题一的模型求解
用matlab7.0.1软件编写程序(程序见附录2),得到问题的解
排除第一个点,很明显成线性关系,采用一元线性回归分析:
y??0??1x;
应用统计分析进行检验,用用matlab7.0.1软件编写程序(程序见附录2),得到问题的解:
P=0.6498>?=0.05,相关系数太小,且有一个异常点,若将第一个点去掉,重复上述操作用matlab7.0.1软件编写程序(程序见附录3)输出结果:
P=0.9428>?无异常点,相关系数接近1,效果较好。所以y?0.94x?168。
五、模型的评价与推广
5.1 模型的评价
优点: