对称,如果对称可初步判断为正态分布,否则判为非正态。该例频率分布明显不对称(案例图3-1)。
0.060.050.04频率密度0.030.020.0100~4~8~12~16~20~24~28~32~36~40~44~48~尿汞值(μg/L)
案例图3-1 表3-6资料的频率分布
由此图可粗略判断尿汞值这个指标不服从正态分布(经对数变换后频率分布仍不对称),所以不能用正态分布法估计正常值范围,而应用适合描述偏态分布的百分位数法,计算P95?38,故估计该地居民尿汞值的95%正常值范围不高于38(μg?L?1)。
在本例中,如果该地居民尿汞值呈正态分布,则上述解法四计算公式是正确的,因为汞是对人身体有害的微量元素,越少越好,又不可能取负值,下限应该为0,只需求出单侧上限即可。
案例3-2 某地区10万人口中出现了20例流行性腮腺炎病例,有人希望据此推断该地区10万人口中不少于20人患流行性腮腺炎的概率。于是,有几位爱动脑筋的学生给出了自己的解法。请辨析他们的解法之正误,并讲出道理。
解法一:
P(X?20)?1?P(X?20)
200020112022201919?1?(e?e?e???e)
0!1!2!19!?1??( 解法二:
20?2020)?1??(0)?1?0.5?0.5
P(X?20)?1?P(?20)0?1?(C100000?0.0002??0.9998?0100000?C1100000?0.0002??0.9998?199999???C19100000?0.0002??0.9998?1999981)?0.52975解法三:
20202020212120100000100000P(X?20)?e?e???e?0.52974
20!21!100000!解法四:
20P(X?20)?C100000?0.0002?20219997921?0.9998?99980?C100000?0.0002??0.9998????C100000100000?0.0002?100000)?0.52975
案例辨析 上述解法均是错误的。解法一将发生流行性腮腺炎的人数看作是服从
??n??20的Poisson分布,并近似服从正态分布,来计算相应的概率。但本例各观察单位
是否患病不是互相独立的,不满足Poisson分布的应用条件,所以不能按照Poisson分布模型处理。解法二按照二项分布计算概率,同样因为各观察单位是否患病非独立,不满足二项分布的应用条件。解法三也是按照Poisson分布计算概率,因为模型选择的错误,所以导致结果错误,同样可分析解法四。
正确做法 就本例而言,因患这种病是有传染性的,即不满足独立性条件,没有合适的统计计算方法;若满足独立性,则以上四种计算方法均正确。在解法一中,因??20,将Poisson分布用正态分布来近似,近似程度较差,故计算出来的概率与直接按Poisson分布或二项分布计算的结果有较大出入。
第4章 参数估计 案例辨析及参考答案
案例4-1 某研究者测得某地120名正常成人尿铅含量(mg·L-1)如下:
尿铅含量 0~ 例数
14
4~ 22
8~ 29
12~ 18
16~ 15
20~ 10
24~ 6
28~ 3
32~ 2
36~ 1
合计 120
试据此资料估计正常成人平均尿铅含量的置信区间及正常成人尿铅含量的参考值范围。
由表中数据得到该例的n?120,S?8.0031,SX?0.7306,某作者将这些数据代入公式(4-20),即采用X?Z?SX计算得到正常成人平均尿铅含量100(1??)%置信区间为(??,14.068 4);采用公式X?Z?S计算得到正常成人尿铅含量100(1??)%参考值范围为(??,26.030 6)。请问这样做是否合适?为什么?应当怎么做?
案例辨析 该定量资料呈偏峰分布,不适合用正态分布法计算100(1??)%参考值范围。
正确做法 可以用百分位数法求正常成人尿铅含量100(1??)%参考值范围的单侧上限。例如,当?=0.05时,可直接求P95分位数,(0,P95)就是所求的正常成人尿铅含量的95%正常值范围。
欲求正常成人尿铅含量总体均数的置信区间,当样本含量n较大(比如说,n大于30或50)时,样本均数就较好地接近正态分布(根据数理统计上的中心极限定理)。本例, 因为n?120较大,不必对原始数据作对数变换就可以用X?Z?SX估计总体均数的置信区间。
案例4-2 在BiPAP呼吸机治疗慢性阻塞性肺病的疗效研究中,某论文作者为了描述试验前的某些因素是否均衡,在教材表4-5中列出了试验前患者血气分析结果。由于作者觉得自己数据的标准差较大,几乎和均数一样大,将标准差放在文中显得不雅观,于是他采用“均数±标准误”(X?SX),而不是“均数±标准差”(X?S)来对数据进行描述。问在研究论文中以教材表4-5方式报告结果正确吗?为什么?
教材表4-5 试验组和对照组治疗前血气分析结果(X组别 试验组 对照组
例数 12 10
年龄/岁
pH
pa(CO2)/kPa
?SX)
Sa(O2)/% 85.12?1.73 86.45?2.25
pa (O2)/kPa 9.25?0.55 9.16?0.62
63.00?4.33 7.36?0.05 63.00?4.33 62.50?3.95 7.38?0.06 63.00?4.33
案例辨析 描述数据的基本特征不能采用X?SX,因为SX为反映抽样误差大小的指标,只表示样本均数的可靠性,而不能反映个体的离散程度。不仅如此,因SX仅为与其对应的S的1/n,有时,即使S很大(甚至大于X),用SX表示离散度时,不易被察觉出来,因此,用X?SX表达定量资料时,往往具有欺骗性。
正确做法 当各组定量资料服从或近似服从正态分布时,反映个体的离散程度应该采用标准差,即描述数据的基本特征必须采用X?S;否则,需要采用M(Q1~Q3)描述数据的基本特征。此处,M为中位数、Q1和Q3分别为第1四分位数和第3四分位数。
案例4-3 某市往年的12岁男孩平均身高为140.0 cm。现在从该市的12岁男孩中随机抽得120名作为研究对象, 得到平均身高为143.1 cm, 标准差为6.3 cm。请估计该样本对
应总体均数的95%置信区间,并确定该均数是否与往年不同。
某学生的回答如下:“该例12岁男孩平均身高的点估计值为143.1 cm,按公式(4-21)计算得到该点估计值的95%置信区间为141.9~144.2 cm。因为往年12岁男孩平均身高为140.0 cm,没有落在所计算的95%置信区间以内,所以可以认为现有男孩平均身高与往年身高有差异”。
请指出学生回答中的不恰当之处。
案例辨析 不恰当之处有三:① “点估计值的95%置信区间”的说法不对;②“以往男孩平均身高没有落在所计算的95%置信区间以内”的说法不对;③“现有男孩平均身高与往年身高有差异”的说法不对。
正确做法 ① 应该说“点估计值对应总体均数的95%置信区间”;② 应该说“95%置信区间没有覆盖(包括)以往男孩平均身高”;③ 应该说“现有男孩平均身高与往年男孩平均身高的差异有统计学意义”。
第5章 假设检验 案例辨析及参考答案
案例5-1 为了比较一种新药与常规药治疗高血压的疗效,以血压下降值为疗效指标,有人作了单组设计定量资料均数比较的t检验,随机抽取25名患者服用了新药,以常规药的疗效均值为?0,进行t检验,无效假设是???0,对立假设是???0,检验水平α=1%。
结果t值很大,拒绝了无效假设。“拒绝了无效假设”意味着什么?下面的说法你认为对吗?
(1)你绝对否定了总体均数相等的无效假设。 (2)你得到了无效假设为真的概率是1%。 (3)你绝对证明了总体均数不等的备择假设。 (4)你能够推论备择假设为真的概率是99%。
(5)如果你决定拒绝无效假设,你知道你将犯错误的概率是1%。
(6)你得到了一个可靠的发现,假定重复这个实验许多次,你将有99%的机会得到具有统计学意义的结果。
提示:就类似的问题,Haller和Kruss(2002)在德国的6个心理系问了30位统计学老师、44位统计学学生和39位心理学家。结果所有的统计学学生、35位心理学家和24位统计学老师认为其中至少有一条是正确的;10位统计学老师、13位心理学家和26位统计学学