数学建模 - 食品质量安全抽检数据分析 下载本文

表6 第一季度第一种食品在不同地区的不合格数汇总表

季度 1 1 1 1 1 1 1 1

类别 1 1 1 1 1 1 1 1

地区 1 2 3 4 5 6 7 8

不合格品数 1 0 0 0 0 5 0 0

为了保证问题二的模型的优越性,建立模型前我们需要对数据进行残差分析。通过残差分析可以剔除一些异常点,从而保证数据的有效性和准确性,以下是我们借助SPSS软件得到的残差统计量表。

表7 残差统计量表

项目 预测值 残差 标准预测值 标准残差

极小值 0.09 -3.018 -2.637 -0.903

极大值 3.12 32.293 2.637 9.657

均值 1.61 0.000 0.000 0.000

标准偏差 0.575 3.335 1.000 0.997

N 528 528 528 528

注.:因变量指不合格个数

从上表我们可以看出,残差的总数为528,残差均值为0.000,这表明我们之前统计得到的数据无残差,原值数据来源较好。 5.2.2模型的建立与求解

完成数据的残差分析后,接下来我们将根据得到的有效数据建立数学模型,找到食品质量与季节、经销地以及食品类别之间的规律。 (1)卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。卡方值越大,越不符合,偏差越小;卡方值越小,越趋于符合。若量值完全相等时,卡方值就为0,表明理论值完全符合。

根据上述原理,本文先用SPSS进行单项卡方分析,得到的结果如下表所示。

表8 不合格品数与季度、类别、经销地的?2检验表

因素 项目 Pearson?

2值 adf 200 200 1

渐进 Sig. (双侧) 0 0.001 0.023

a a. 198 单元格

(85.7%) 的期望计数少于 5,最小期望计数为 .09。

302.790 266.879 5.151

季度似然比 线性和线性组合

13

续表8

Pearson?2

101.490 100.623 5.259 186.511 168.376 4.805

aa100 100 1 140 140 1

0.44 0.464 0.022 0.005 0.051 0.028

a. 108 单元格

(85.7%) 的期望计数少于 5,最小期望计数为 .17。

类别似然比 线性和线性组合 Pearson?2

通过观察上述卡方检验表,可知季度、经销地与不合格品个数之间的Sig.值是小于0.05的,这表明季度、经销地与不合格个数之间是有着显著性的差异。而如果单纯地从类别来看,不合格品个数与它没有什么显著性的差异。但在这里,我们把类别和其它因素综合起来分析,希望得到食品的不合格数量与三个因素之间的一个综合规律。

通过观察上面两个图像,我们可以清晰地看出来条形图的左边分布较密,而随着横坐标值的增大,纵坐标的数目逐渐向于零。这说明不同季度、不同经销地,它们的不合格食品的数目都是比较有限的。 (2)相关性分析

相关分析是线性分析的基础,通过相关性分析可以判断自变量与因变量之间是否具有显著的相关关系。用SPSS对不合格个数和季度、类别以及经销地这三个因素进行相关分析后,得到的结果如下。

表9 相关性表

Pearson相关性

a. 144 单元格

(85.7%) 的期望计数少于 5,最小期望计数为 .13。

经销地似然比 线性和线性组合

图6 不合格个数分布情况图

不合格个数

季度 类别 经销地

不合格个数 1.000 0.099 0.100 -0.095

季度 0.099 1.000 0.000 0.000

类别 0.100 0.000 1.000 0.000

经销地 -0.095 0.000 0.000 1.000

14

续表9

不合格个数

季度 类别 经销地 不合格个数

季度 类别 经销地 . 0.012 0.011 0.014 528 528 528 528 0.012 . 0.500 0.500 528 528 528 528 0.011 0.500 . 0.500 528 528 528 528 0.014 0.500 0.500 . 528 528 528 528 Sig. (单侧)

N

上述表格为相关性表,而在线性分析中,我们把不合格个数看成被解释变量,即为因变量。与不合格个数有关的三个因素:季度、类别、经销地,它们的Pearson相关性值分别为0.099,0.100,-0.095,而Sig值分别为0.012、0.011、0.014,均小于0.05,这表明不合格个数与季度、类别、经销地有着显著的相关关系。 (3)建立多元线性回归模型

多元线性回归模型是用来描述因变量y如何依赖于自变量x1,x2,...,xk和误差项?的方程,表示为

[3]

y??0??1x1??2x2?...??kxk??,

上式中,?0,?1,?2,...,?k是模型的k?1个未知参数,?为误差项。

本文我们考虑的是季度、食品类别和经销地这三个因素与食品不合格数目之间的线性关系,即只考虑自变量x1,x2,x3和因变量y的线性关系。

同样,由于E(?)?0,Var(?)??2,这里的多元线性总体回归方程可以表示为

E(y)??0??1x1??2x2??3x3,

系数?2表示在其他自变量不变的情况下,自变量x2变动一个单位时引起因变量

y的平均变动单位,其他回归系数的含义类似。

从几何意义上讲,多元回归方程是多维空间上的一个平面,这里估计的多元线性回归方程,即样本回归方程为

????x???x???x。 ???y0112233?,??,??,??为?,?,?,?的估计值。 式中,?01230123(4)参数的最小二乘估计

多元线性回归模型中偏回归系数的估计同样采用最小二乘法,通过使因变量

?,??,??,??,即 的观察值与估计值之间的残差平方和达到最小,来求得?0123 15

????x???x???x)2?min,[4] ?i)??(yi??Q??(yi?y01122332i?1i?1ll?,??,??,??的标准方程组,为 由此可以得到求解?0123??Q????0???Q????i??0??0?0,i?1,2,3。 ?0??i??i我们通过借助SPSS软件直接解出上述方程组,从而得出相应的回归结果如

下表所示。

表10 偏回归系数

a

项目 (常量) 季度 类别 经销地

? 非标准化系数?0.916

0.106 0.198 -0.141

标准误差 标准系数 0.518 0.046 0.085 0.064

0.099 0.1 -0.095

t 1.769 2.296 2.32 -2.218

Sig. 0.078 0.022 0.021 0.027

1

注:因变量指不合格个数

根据上表的结果,由未标准化的回归系数可知,可以得到最后的拟合效果为

y?0.106?x1?0.198?x2-0.141?x3?0.916。

从Sig.的取值可知,季度、类别和经销地的系数都是有统计学意义的。 考虑到各因素之间的相互影响,本文还对这三个自变量之间的关系进行了共线性检验,借助SPSS软件直接得到检验结果。

表11 共线性诊断表

a

模型 维数 1

特征值 3.531 0.213 0.198 0.058

条件索引 1.000 4.076 4.222 7.812

(常量) 方差比例 0.01 0.00 0.00 0.99

季度方差比例 0.01 0.64 0.06 0.28

类别方差比例 0.01 0.03 0.59 0.36

经销地方差比例 0.01 0.32 0.35 0.31

1

2 3 4

注:因变量指不合格个数

上表为模型的共线性检验结果,由表可知,特征值均不等于0,说明不存在共线性问题。同时,条件指数均小于30,所以综合以上数据,该模型中不存在共线性的问题。 (5)判断拟合优度

Ⅰ.多重判定系数

对于多元线性回归方程,我们需要用多重判定系数来评价其拟合优度。而对多元回归中因变量离差平方和的分解有以下这个式子

16