(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人,按此样本数据分析这种传染病是否与饮用水有关,并比较两种样本在反映总体时的差异.
[解析] (1)假设H0:传染病与饮用水无关.把表中数据代入公式得:K2的观测值k=830×?52×218-466×94?2
≈54.21.因为54.21>10.828,所以拒绝H0.因此在犯错误的概率不
146×684×518×312超过0.001的前提下认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表如下:
干净水 不干净水 总计 得病 5 9 14 不得病 50 22 72 总计 55 31 86 286×?5×22-50×9?
此时,K2的观测值k=≈5.785.由于5.785>5.024,所以在犯错误的
14×72×55×31
概率不超过0.025的前提下认为该种传染病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中犯错误的概率不超过0.001,(2)中犯错误的概率不超过0.025.
C级 能力拔高
某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).导学号 51124703
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平
9
均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
n?ad-bc?2
附:K= ?a+b??c+d??a+c??b+d?
2
P(K2≥k0) k0 0.10 2.706 0.05 3.841 0.010 6.635 0.005 7.879 4500[解析] (1)300×=90,所以应收集90位女生的样本数据.
15000
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
每周平均体育运动时间不超过4小时 每周平均体育运动时间超过4小时 总计 2
男生 45 165 210 女生 30 60 90 总计 75 225 300 300×?2250?2100综合列联表可算得K==≈4.762>3.841.
75×225×210×9021
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关.”
10