4.0 4.5 5.0 5.5 6.0 7.0 102.1 105.3 108.6 111.6 116.2 122.5 101.2 104.5 107.6 110.8 115.1 121.1 8.0 9.0 10.0 11.0 12.0 13.0 126.8 132.2 136.6 142.3 147.2 156.3 126.3 131.8 137.9 144.1 150.0 155.1 14.0 15.0 16.0 17.0 18.0 162.5 166.1 169.0 170.6 170.7 157.1 157.7 158.7 158.9 158.9 数据文件:data10-2.sav。 采用SPSS对身高与年龄进行回归分析,结果如表教材10-5和教材表10-6所示。
教材表10-5 男孩身高对年龄的简单线性回归分析结果
Constant AGE
估计值 83.736 3 5.274 8
标准误 1.882 4 0.167 6
t
44.483 9 31.479 8
P 0.000 0 0.000 0
F=990.98 R2=98.5%
教材表10-6 女孩身高对年龄的简单线性回归分析结果
Constant AGE
估计值 88.432 6 4.534 0
标准误 3.280 0 0.292 0
t
26.961 1 15.529 0
P 0.000 0 0.000 0
F=241.15 R2=94.1%
经拟合简单线性回归模型,t检验结果提示回归方程具有统计学意义。R结果提示,拟合效果非常好,故可认为:
(1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27 cm与4.53 cm,男孩生长速度快于女孩的生长速度。
(2)依照回归方程预测该地男孩10.5岁、16.5岁、19岁和20岁的平均身高依次为139.1 cm、170.8 cm、184.0 cm和189.2 cm;该地女孩10.5岁、16.5岁、19岁和20岁的平均身高依次为136.0 cm、163.2 cm、174.6 cm和179.1 cm。
针对以上分析结果,请考虑:
(1)分析过程是否符合回归分析的基本规范? (2)回归模型能反映数据的变化规律吗?
(3)拟合结果和依据回归方程而进行的预测有问题吗? (4)男孩生长速度快于女孩的生长速度的推断是否有依据?
案例辨析 未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的。
正确做法 分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。 (1)作散点图(案例图10-1)。
2
案例图10-1 儿童身高对年龄的散点图
(a)男孩身高;(b)女孩身高
由案例图10-1可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,15~16岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。
(2)选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。
Model Summary and Parameter Estimates Dependent Variable: 男孩身高 Equation Model Summary Parameter Estimates R Square Linear Quadratic Cubic Growth .985 F 990.980 df1 df2 Sig. Constant 1 2 3 1 15 .000 14 .000 13 .000 15 .000 b1 b2 b3 83.736 5.275 89.609 1.735 4.514 .039 .993 1051.826 .996 1023.177 .973 535.145 71.270 8.103 -.132 .512 -.020 The independent variable is 年龄。
Dependent Variable: 女孩身高
Model Summary Equation Linear Quadratic Cubic Growth R Square .941 F 241.151 Parameter Estimates b1 4.534 3.490 .034 b2 b3 df1 df2 Sig. Constant 1 2 3 1 15 .000 14 .000 13 .000 15 .000
88.433 81.857 4.539 .994 1206.902 .998 2575.942 .924 182.200 60.788 10.805 -.292 .447 -.023 The independent variable is 年龄。
上述曲线类型依次为线性、二次、三次多项式曲线和生长曲线,由拟合结果可知,曲线拟合效果较好,进一步得到曲线图(案例图10-1):
(3)选择合理的模型,列出回归方程。以女孩身高二次曲线为例,方程如下:
??a?bX?bX2?bX3?60.79?10.81X?0.29X2 多项式曲线:Y123(4)统计预测:预测19岁女孩身高为60.788+10.805×18-0.292×182=160.7,与实际
趋势相符。其他预测方法相同。
案例10-2 贫血患者的血清转铁蛋白研究。第6章例6-1中,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?
张医生用t检验比较新药与常规药治疗贫血患者后的血红蛋白增加量,计算得:
X1=27.99,X2=20.21,t=4.137。
王医生认为,可以作线性回归分析。在该数据中涉及了两个变量,一是观察效应变量(连续性),即血红蛋白增加量,将之作为回归分析中的因变量Y;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量X,其中新药组X=1,常规药组X=0。数据转
??20.21?7.78X,t=4.137。 换为双变量资料形式(教材表10-7),经分析得回归方程Y
教材表10-7 两种药物治疗贫血患者结果
编号 1 2 3 4 5 Y X0 0 0 0 0 编号 6 7 8 9 10 Y X0 0 0 0 0 编号 11 12 13 14 15 Y X1 1 1 1 1 编号 16 17 18 19 20 Y X1 1 1 1 1 19.5 19.0 13.0 24.7 21.5 22.0 19.0 15.5 24.5 23.4 30.5 21.4 25.0 34.5 33.0 32.5 29.5 25.5 24.4 23.6 数据文件:data10-3.sav。 请考虑:
(1)王医生的分析方法对不对?
(2)回归分析能代行两样本均数t检验的任务吗? (3)通过这个案例的实践,你得到哪些启发?
案例辨析 王医生的分析方法是对的;回归分析能代行两样本均数t检验的任务。其理由如下。 正确做法 两样本合并后,总例数为n?n1?n2=20。进行直线回归分析,结果如下:
??20.21?7.78X,R2=0.698。经检验,贫血患者治疗后的血红蛋白增加量与治疗有Y关。
??a?bX=20.21+7.78×0=20.21 正常人均数:Y1??a?bX=20.21+7.78×1=27.99 患 者均数:Y1截距与两样本均数的差值相等。分别进行回归方程的方差分析与回归系数的t检验,得
F=17.112,t=4.137。回归系数的t检验结果与两样本均数的t检验结果完全一致。以上结
果说明,t检验的结果可以转化为直线回归方程分析。当分组因素为k个组(样本)时,可以设置为k-1个指示变量,采用第11章的多重线性回归分析,这在多因素分析中是最常采用的办法。
第11章 多重线性回归分析
案例辨析及参考答案
案例11-1 预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(Y,%)、年龄(X1,岁)、体重(X2,kg)、跑1.5 km所需时间(X3,min)、休息时的心跳频率(X4,次/min)、跑步时的心跳频率(X5,次/min)和最高心跳频率(X6,次/min)(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。
教材表11-9 吸氧效率调查数据
Y X1 44 40 44 42 38 47 40 43 44 X2 89.47 75.07 85.84 68.15 89.02 77.45 75.98 81.19 81.42 X3 11.37 10.07 8.65 8.17 9.22 11.63 11.95 10.85 13.08 X4 62 62 45 40 55 58 70 64 63 X5 178 185 156 166 178 176 176 162 174 X6 182 185 168 172 180 176 180 170 176 Y X1 51 51 48 49 57 54 56 50 51 X2 69.63 77.91 91.63 73.37 73.37 79.38 76.32 70.87 67.25 X3 10.95 10.00 10.25 10.08 12.63 11.17 9.63 8.92 11.08 X4 57 48 48 67 58 62 48 48 48 X5 168 162 162 168 174 156 164 146 172 X6 172 168 164 168 176 165 166 155 172 44.609 45.313 54.297 59.571 49.874 44.811 45.681 49.091 39.442 40.836 46.672 46.774 50.388 39.407 46.080 45.441 54.625 45.118