思考与练习参考答案 下载本文

第1章 绪论 思考与练习参考答案

一、最佳选择题

1. 研究中的基本单位是指 ( D )。

A.样本 B. 全部对象 C.影响因素 D. 个体 E. 总体 2. 从总体中抽取样本的目的是( B )。

A.研究样本统计量 B. 由样本统计量推断总体参数

C.研究典型案例 D. 研究总体统计量 E. 计算统计指标 3. 参数是指( B )。

A.参与个体数 B. 描述总体特征的统计指标

C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数 4. 下列资料属名义变量的是( E )。 A.白细胞计数 B.住院天数

C.门急诊就诊人数 D.患者的病情分级 E. ABO血型 5.关于随机误差下列不正确的是( C )。

A.受测量精密度限制 B.无方向性 C. 也称为偏倚 D.不可避免 E. 增加样本含量可降低其大小

二、名称解释(答案略)

1. 变量与随机变量 2. 同质与变异 3. 总体与样本 4. 参数与统计量 5. 误差 6. 随机事件 7. 频率与概率

三、思考题

1. 生物统计学与其他统计学有什么区别和联系?

答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其

不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。

2. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?

答:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。

3. 某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。

(1) 该研究中的总体是什么?

答:某地区10万个7岁发育正常的男孩。 (2) 该研究中的身高总体均数的意义是什么?

答:身高总体均数的意义是: 10万个7岁发育正常的男孩的平均身高。 (3) 该研究中的体重总体均数的意义是什么?

答:体重总体均数的意义是: 10万个7岁发育正常的男孩的平均体重 (4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。 (5)该研究中的样本是什么?

答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。

(宇传华 方积乾)

第2章 统计描述

思考与练习参考答案

一、最佳选择题

1. 编制频数表时错误的作法是( E )。

A. 用最大值减去最小值求全距 B. 组距常取等组距,一般分为10~15组 C. 第一个组段须包括最小值 D. 最后一个组段须包括最大值

E. 写组段,如“1.5~3,3~5, 5~6.5,?”

2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是( A )。

A. 中位数 B. 几何均数 C. 调和均数 D. 算术均数 E. 众数 3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用( A )。 A. 变异系数 B. 全距 C. 标准差 D. 四分位数间距 E. 百分位数P2.5与P97.5的间距 4. 均数X和标准差S的关系是( A )。 A. S越小,X对样本中其他个体的代表性越好 B. S越大,X对样本中其他个体的代表性越好 C. X越小,S越大 D. X越大,S越小 E. S必小于X

5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为( B )。

A. 阳转人数 B. 疫苗接种人数 C. 乙肝患者数 D. 乙肝病毒携带者数 E. 易感人数

6. 某医院的院内感染率为5.2人/千人日,则这个相对数指标属于( C )。

A. 频率 B. 频率分布 C. 强度 D. 相对比 E. 算术均数 7. 纵坐标可以不从0开始的图形为( D )。

A. 直方图 B. 单式条图 C. 复式条图 D. 箱式图 E. 以上均不可

二、简答题

1. 对定量资料进行统计描述时,如何选择适宜的指标?

答:详见教材表2-18。

教材表2-18 定量资料统计描述常用的统计指标及其适用场合 描述内容 指 标 平均水平

意 义

适 用 场 合

均 数 个体的平均值 几何均数 平均倍数

对称分布

取对数后对称分布

①非对称分布;②半定量资料;③末端开

中 位 数 位次居中的观察值

口资料;④分布不明

众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料

变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析

标 准 差 观察值平均离开均数的

对称分布,特别是正态分布资料

(方 差) 程度 四分位数①非对称分布;②半定量资料;③末端开

居中半数观察值的全距

间距 口资料;④分布不明

①不同量纲的变量间比较;②量纲相同但

变异系数 标准差与均数的相对比

数量级相差悬殊的变量间比较 2. 举例说明频率和频率分布的区别和联系。

答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。

当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。

两者均为“阳性率”,都是基于样本信息对总体特征进行估计的指标。不同的是:频率只是一种结局发生的频率,计算公式的分子是某一具体结局的发生数;频率分布则由诸结局发生的频率组合而成,计算公式的分子分别是各种可能结局的发生数,而分母则与频率的计算公式中分母相同,是样本中被观察的单位数之和。 3. 应用相对数时应注意哪些问题?

答:(1)防止概念混淆 相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。

(2)计算相对数时分母不宜过小 样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 4. 常用统计图有哪些?分别适用于什么分析目的? 答:详见教材表2-20。

教材表2-20 常用统计图的适用资料及实施方法 图 形 条 图 直 方 图 百分条图 饼 图 线 图 半对数线图 散 点 图

适 用 资 料 组间数量对比 定量资料的分布 构成比 构成比

定量资料数值变动 定量资料发展速度 双变量间的关联

实 施 方 法

用直条高度表示数量大小

用直条的面积表示各组段的频数或频率

用直条分段的长度表示全体中各部分的构成比 用圆饼的扇形面积表示全体中各部分的构成比 线条位于横、纵坐标均为算术尺度的坐标系

线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 点的密集程度和形成的趋势,表示两现象间的相关关系

箱 式 图 茎 叶 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数

三、计算题

1. 某内科医生调查得到100名40~50岁健康男子总胆固醇(mg/dl),结果如下 227 199 235 235 246 163 207

190 155 220 167 209 273 208

224 208 190 210 202 178 231

259 203 203 171 186 190 234

225 199 197 248 217 207 226

238 253 149 201 206 259 174

180 181 175 266 200 186 199

193 196 236 189 203 194 278

214 224 202 222 197 246 277

195 210 209 199 161 172 181

213 220 174 197 247 234

193 255 184 214 138 232

209 257 174 199 186 189

172 216 185 198 156 172

244 249 167 230 195 235

(1)编制频数表,绘制直方图,讨论其分布特征。

答:频数表见练习表2-1。根据直方图(练习图2-1),可认为资料为基本对称分布,其包络线见练习图2-2。

练习表2-1 某地100名40~50岁健康男子总胆因醇/(mg·dl)

Valid Percent

1.0 3.0 11.0 12.0 25.0 15.0 13.0 11.0 5.0 4.0

Cumulative Percent

1.0 4.0 15.0 27.0 52.0 67.0 80.0 91.0 96.0 100.0

-1

Frequency Percent

Valid 130~

145~ 160~ 175~ 190~ 205~ 220~ 235~ 250~ 265~280

Total

1 3 11 12 25 15 13 11 5 4 100

1.0 3.0 11.0 12.0 25.0 15.0 13.0 11.0 5.0 4.0

100.0 100.0

2520Frequency151050140160180200220240260280Mean = 207.41Std. Dev. = 29.82N = 100 总胆固醇练习图2-1 直方图

2520Frequency151050140160180200220240260280Mean = 207.41Std. Dev. = 29.82N = 100 总胆固醇练习图2-2 包络线图

(2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。 答:利用原始数据,求出算术均数X?207.4 mg/dl 和标准差S?29.8mg/dl。 (3)计算P25,P75和P95。

答:利用原始数据,求出P25=186.8 mg/dl,P75=229.3 mg/dl,P95=259.0 mg/dl。 2. 某地对120名微丝蚴血症患者治疗3个疗程后,用IFA间接荧光抗体试验测得抗体滴度如下,求抗体滴度的平均水平。 抗体滴度 例 数

1:5 5

1:10 16

1:20 27

1:40 34

1:80 22

1:160 13

1:320 3

利用上述频数表,得平均滴度为1:36.3。

3. 某地1975-1980年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保持不变。

教材表2-21 某地6年间出血热的发病与死亡情况

年 份 1975 1976 1977 1978 1979 1980

试分析:

(1)粗略判断发病率的变化情况怎样。

答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有下降。可以认为发病率大致呈上升趋势,1980年略有下降。

(2)病死率的变化情况怎样?

答: 病死率由各年度病死数除以发病数获得,病死率依次为12.5%、8.9%、7.4%、5.4%、3.0%和1.8%,呈逐年下降趋势。

(3)上述分析内容可用什么统计图绘制出来?

答:由于没有给出该地人口数,故不能计算发病率,可用普通线图表示发病数变化情况。病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。

(4)评述该地区出血热防治工作的效果。

发病数

32 56 162 241 330 274

病死数

4 5 12 13 10 5

答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降)。

(张晋昕)

第3章 概率分布 思考与练习参考答案

一、最佳选择题

1. 某资料的观察值呈正态分布,理论上有( C )的观察值落在X?1.96S范围内。

A. 68.27% B. 90% C. 95% D. 99% E. 45% 2. 正态曲线下,从均数?到??1.64?的面积为( A )。

A. 45% B. 90% C. 95% D. 47.5% E. 99%

3. 若正常人的血铅含量X近似服从对数正态分布,则制定X的95%参考值范围,最好采用(其中 Y?lgX, SY为Y的标准差)( C )。

A.X?1.96S B.P2.5~P97.5 C.lg?1(Y?1.64SY)

D.lg?1(Y?1.96SY) E.P5~P95

4. 在样本例数不变的情况下,若( D ),则二项分布越接近对称分布。 A. 总体率?越大 B. 样本率p越大 C. 总体率?越小

D. 总体率?越接近0.5 E. 总体率?接近0.1或0.5

5. 铅作业工人周围血象点彩红细胞在血片上的出现数近似服从( D )。

A. 二项分布 B. 正态分布 C. 偏态分布 D. Poisson分布 E. 对称分布

6. Poisson分布的均数?与标准差?的关系是( E )。

A. ??? B. ??? C. ??? D. ??? E. ???2

二、思考题

1. 服从二项分布及Poisson分布的条件分别是什么?

简答:二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率?很小。 2. 二项分布、Poisson分布分别在何种条件下近似正态分布?

简答: 二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,

π)近似正态分布N(n?,

n?(1??))。

Poisson分布的正态近似:Poisson分布?(?),当?相当大时(≥20),其分布近似于正态分布。

三、计算题

1. 已知某种非传染性疾病常规疗法的有效率为80%,现对10名该疾病患者用常规疗法治疗,问至少有9人治愈的概率是多少?

解:对10名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人服药后治愈的概率均可视为0.80,这相当于作10次独立重复试验,即?=0.80,n=10的贝努利试验,因而治愈的人数X服从二项分布B(10, 0.80)。至少有9人治愈的概率为:

kP(X?9)?1?P(X?9?1)=1??C100.8k(1?0.8)10?kk?08 ?1?0.6242?0.3758=37.58 %至少有9人治愈的概率是37.58%。 或者

P(X?9)?P(X?9)?P(X?10)

9?C100.89(1?0.8)1?C10810(1?0.8)0 100.?0.3785

2. 据以往的统计资料,某地新生儿染色体异常率为1%,问100名新生儿中染色体异常不少于2名的概率是多少?

解:

P(X?2)?1?P(X?2?1)?1?P(X?0)?P(X?1)

10?111?1e?e=1?0.3679?0.3679=0.2642=26.42% =1?0!1!3. 调查某市2000年110名20岁男性青年的身高(cm)资料如下:

173.1 166.8 172.9 175.9 172.8 170.5 174.1 174.2 175.7 173.5 168.2 173.7 184.4 174.8 172.5 174.9 174.9 174.2 173.8 176.2 170.9 165.0 176.3 174.2 179.8 174.5 180.5 171.5 178.9 171.5 166.7 170.8 168.8 177.5 174.5 183.5 182.0 170.9 173.5 177.5 181.2 177.1 172.3 176.5 174.0 174.3 174.6 172.6 171.3 173.1 176.9 170.5 174.2 177.5 176.6 182.3 172.1 169.9 179.5 175.8 178.6 180.6 175.6 173.3 168.7 174.5 178.5 171.3 172.0 173.2

168.8 176.0 182.6 169.5 177.5 180.6 181.5 175.1 165.2 168.0 175.4 169.2 170.0 171.9 176.6 178.8 177.2 173.4 168.5 177.6 175.8 164.8 175.6 180.0 176.6 176.5 177.7 174.1 180.8 170.6 173.8 180.7 176.3 177.5 178.3 176.0 174.8 180.8 176.5 179.2

(1)试估计当年该市20岁男性青年中,身高在175.0~178.0(cm)内的占多大比例? (2)估计当年该市95%以及99%的20岁男青年身高范围。

(3)若当年由该市随机抽查1名20岁男青年,试估计其身高超过180 cm的概率。 解:用SPSS计算本题。 数据文件:data3-n.sav。

数据格式:数据库2列110行,变量n为男性青年序号,x表示身高。 操作步骤:

操作

Analyze

Descriptive Statistics

Descriptives Options

√ Mean √ Std. Deviation Continue Variable[s]: x OK Transform Compute

Target Variable P Numeric Expression:

CDF.NORMAL(178.0,174.766,4.1509)-CDF. NORMAL(175.0,174.766,4.1509) OK

Target Variable x1 Numeric Expression:

174.766-1.96*4.1509 OK

Target Variable x2 Numeric Expression:

174.766+1.96*4.1509 OK

Target Variable x3 Numeric Expression:

174.766-2.58*4.1509 OK

Target Variable x4 Numeric Expression:

174.766+2.58*4.1509 OK

该市95%以及99%的20岁男青年身高范围间的比例 调用“变量计算(Compute Variable)”对话框 定义目标变量“P”

当年该市20岁男性青年中,身高在175.0~178.0 cm内的比例

调用Descriptives过程

计算得均数=174.766,标准差=4.150 9

说明

Target Variable p1 Numeric Expression:

1-CDF.NORMAL(180.0,174.766,4.1509) OK

由该市随机抽查1名20岁男青年,其身高超过180 cm的概率

计算结果(练习图3-1):

Descriptive Statistics x Valid N (listwise) N 110 110 Mean 174.766 Std. Deviation 4.1509

练习图3-1 SPSS输出结果

以上是SPSS输出结果,得到均数(Mean)为174.766 cm,标准差(Std. Deviation) 为4.150 9 cm。估计当年该市20岁男性青年中,身高在175.0~178.0 cm内的比例为25.956%,身高在175.0~178.0 cm内的约有29人。 估计当年该市95%的20岁男青年身高范围为166.63~182.90 cm,99% 的20岁男青年身高范围为164.06~185.48 cm。 由该市随机抽查1名20岁男青年,估计其身高超过180 cm的概率约为10%。

(祁爱琴 高 永 石德文)

第4章 参数估计 思考与练习参考答案

一、最佳选择题

1.关于以0为中心的t分布,错误的是( E )

A. t分布的概率密度图是一簇曲线 B. t分布的概率密度图是单峰分布

C. 当??∞时,t分布?Z分布 D. t分布的概率密度图以0为中心,左右对称 E. ?相同时,t值越大,P值越大

2.某指标的均数为X,标准差为S,由公式X?1.96S,X?1.96S计算出来的区间常称为( B )。

A. 99%参考值范围 B. 95%参考值范围 C. 99%置信区间 D. 95%置信区间 E. 90%置信区间

3.样本频率p与总体概率?均已知时,计算样本频率p的抽样误差的公式为( C )。

??A. p?1?p?n B. p?1?p?n?1 C. ??1???n D. ??1???n?1 E. ??1???n?2 4.在已知均数为?, 标准差为 ? 的正态总体中随机抽样, X???( B )的概率为5%。

A.1.96? B.1.96?X C.t0.05/2,?S D.t0.05/2,?SX E.t0.05/2,??X

5. ( C )小,表示用样本均数估计总体均数的精确度高。

A. CV B. S C. ?X D. R E. 四分位数间距 6. 95%置信区间的含义为( C ):

A. 此区间包含总体参数的概率是95% B. 此区间包含总体参数的可能性是95%

C. “此区间包含总体参数”这句话可信的程度是95% D. 此区间包含样本统计量的概率是95% E. 此区间包含样本统计量的可能性是95%

二、思考题

1. 简述标准误与标准差的区别。 答: 区别在于:

(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。

(2)标准误小于标准差。

(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不 随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。

2. 什么叫抽样分布的中心极限定理?

答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。

当有足够的样本含量(如n?30)时,从任何总体中抽取随机样本的样本均数近似地服从正态分布。样本含量越大,X抽样分布越接近于正态分布。

正态分布的近似程度与总体自身的概率分布和样本含量有关。如果总体原本就是正态分布,那么对于所有n值,抽样分布均为正态分布。如果总体为非正态分布,X仅在n值较大情况下近似服从正态分布。一般说,n?30时的X抽样分布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布、极度偏峰分布),即使有足够大的n值,抽样分布也将为非正态。

3. 简述置信区间与医学参考值范围的区别。

答: 置信区问与医学参考值范围的区别见练习表4-1。

练习表4-1 置信区间与医学参考值范围的区别

区别 含义 用途 计算公式

估计未知总体均数所在范围

置信区间

总体参数的波动范围,即按事先给定的概率100(1??)%所确定的包含未知总体参数的一个波动范围

参考值范围

个体值的波动范围,即按事先给定的范围100(1??)%所确定的“正常人”的解剖、生理、生化指标的波动范围

供判断观察个体某项指标是否“正常”时参考(辅助诊断) 正态分布:X?Z?/2S 偏峰分布:PX~P100?X

?未知: X?t?/2,?SX

?已知或?未知但n≥30,有X?Z?/2?X或

X?Z?/2SX

4. 何谓置信区间准确度与精确度?如何协调两者间的关系。

答:置信区间有准确度(accuracy)与精密度(precision)两个要素。准确度由置信度 (1-?) 的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看,置信度愈接近于1愈好,如置信度99%比95%好。精密度是置信区间宽度的一半(即

t?2,?SX、Z?2,?Sp),意指置信区间的两端点值离样本统计量(如X、p)的距离。从精

密度的角度看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是相互矛盾的。为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。

三、计算题

1.随机抽取了100名一年级大学生,测得空腹血糖均数为4.5 mmol/L,标准差为0.61 mmol/L。试估计一年级大学生空腹血糖总体均数及方差的95%置信区间。

答:总体均数95%置信区间为(4.379,4.621),方差的95%置信区间为(0.286 9, 0.502 1)。

2.调查某地蛲虫感染情况,随机抽样调查了260人,感染人数为100。试估计该地蛲虫感染率的95%置信区间。

答:该地蛲虫感染率的95%置信区间为(32.55%,44.38%)。

(宇传华)

第5章 假设检验 思考与练习参考答案

一、最佳选择题

1. 样本均数比较作t检验时,分别取以下检验水准,以( E )所取Ⅱ类错误最小。 A.??0.01 B. ??0.05 C. ??0.10 D. ??0.20 E. ??0.30 2. 在单组样本均数与一个已知的总体均数比较的假设检验中,结果t=3.24,t0.05,v =2.086, t0.01,v =2.845。正确的结论是( E )。 A. 此样本均数与该已知总体均数不同 B. 此样本均数与该已知总体均数差异很大

C. 此样本均数所对应的总体均数与该已知总体均数差异很大 D. 此样本均数所对应的总体均数与该已知总体均数相同 E. 此样本均数所对应的总体均数与该已知总体均数不同 3. 假设检验的步骤是( A )。

A. 建立假设,选择和计算统计量,确定P值和判断结果 B. 建立无效假设,建立备择假设,确定检验水准

C. 确定单侧检验或双侧检验,选择t检验或Z检验,估计Ⅰ类错误和Ⅱ类错误 D. 计算统计量,确定P值,作出推断结论 E. 以上都不对

4. 作单组样本均数与一个已知的总体均数比较的t检验时,正确的理解是( C )。 A. 统计量t越大,说明两总体均数差别越大 B. 统计量t越大,说明两总体均数差别越小 C. 统计量t越大,越有理由认为两总体均数不相等 D. P值就是?

E. P值不是?,且总是比?小

5. 下列( E )不是检验功效的影响因素的是:

A. 总体标准差? B. 容许误差? C. 样本含量n D. Ⅰ类错误? E. Ⅱ类错误?

二、思考题

1.试述假设检验中α与P的联系与区别。

答:?值是决策者事先确定的一个小的概率值。

P值是在H0成立的条件下,出现当前检验统计量以及更极端状况的概率。 P≤?时,拒绝H0假设。

2. 试述假设检验与置信区间的联系与区别。

答:区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。置信区间用于说明量的大小,即推断总体参数的置信范围;而假设检验用于推断质的不同,即判断两总体参数是否不等。

3. 怎样正确运用单侧检验和双侧检验?

答:选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可能无效,但不可能改进后反不如以前,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧检验即可。

4. 试述两类错误的意义及其关系。

答:Ⅰ类错误(typeⅠerror):如果检验假设H0实际是正确的,由样本数据计算获得的检验统计量得出拒绝H0的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H0(弃真)的错误称为Ⅰ类错误。

Ⅱ类错误(type Ⅱ error):假设检验的另一类错误称为Ⅱ类错误(type Ⅱ error),即检验假设H0原本不正确(H1正确),由样本数据计算获得的检验统计量得出不拒绝H0(纳伪)的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用? 表示。

在假设检验时,应兼顾犯Ⅰ类错误的概率(?)和犯Ⅱ类错误的概率(?)。犯Ⅰ类错

误的概率(?)和犯Ⅱ类错误的概率(?)成反比。如果把Ⅰ类错误的概率定得很小,势必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小?和?,只有通过增加样本含量,减少抽样误差大小来实现。 5.试述检验功效的概念和主要影响因素。

答:拒绝不正确的H0的概率,在统计学中称为检验功效(power of test),记为1??。检验功效的意义是:当两个总体参数间存在差异时(如备择假设H1:???0成立时),所使用的统计检验能够发现这种差异(拒绝零假设H0:???0)的概率,一般情况下要求检验功效应在0.8以上。

影响检验功效的四要素为总体参数的差异?、总体标准差?、检验水准?及犯Ⅱ类错误的概率?。

6.简述假设检验的基本思想。

答:假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝H0、接受H1的一种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝H0,暂且认为H0成立(因为拒绝的证据不足),即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝H0是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05(各种科研杂志习惯上采用这一概率值),则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝H0,即有足够证据推断差异具有统计学意义。

三、计算题

1. 一般正常成年男子血红蛋白的平均值为140 g/L,某研究者随机抽取25名高原地区成年男子进行检查,得到血红蛋白均数为155 g/L,标准差25 g/L。问:高原地区成年男子的血红蛋白是否比一般正常成年男子的高? 解:H0:???0 H1:???0

??0.0(单侧)5t?X??0=3.00 S/nt=3,0.005?P?0.01,可认为高原地区居民的血红蛋白比一般正常成年男子的高。 2. 一般而言,对某疾病采用常规治疗,其治愈率约为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法与常规疗法的效果是否有差别?

解:H0:?=?0,H1:???0,??0.05

=5.41

Z?p??0?p?p??0?0(1??0)/nZ=5.41,P?0.001,可认为新治疗方法与常规疗法的效果不同,新疗法优于常规疗

法。

(林爱华 宇传华)

第6章 两样本定量资料的比较

思考与练习参考答案

一、 最佳选择题

1. 正态性检验,按α =0.10检验水准,认为其总体服从正态分布,此时若推断有错,其错误 的概率为( D )。

A. 大于0.10 B. 等于0.10 C. 小于0.10 D. 等于β,而β未知 E. 等于1-β,而β未知

2. 甲、乙两人分别从同一随机数字表抽取30个(各取两位数字)随机数字作为两个样本, 求得X1和S1、X2和S2,则理论上( C )。 A. X1?X2 B. S1?S2

C. 由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括0 D. 作两样本均数比较的t检验,必然得出无统计学意义的结论 E. 作两样本方差比较的F检验,必然方差齐

3. 两样本均数比较时,能用来说明两组总体均数间差别大小的是( D )。

2222 A. t值 B. P值

C. F值 D. 两总体均数之差的95%置信区间 E. 上述答案均不正确

4. 两小样本均数比较,方差不齐时,下列说法不正确的是( C )。 A. 采用秩和检验 B. 采用t′检验 C. 仍用t检验 D. 变量变换后再作决定 E. 要结合正态性检验结果方能作出决定 5. 两样本秩和检验的H0是 ( B )。

A. 两样本秩和相等 B. 两总体分布相同 C. 两样本分布相同 D. 两总体秩和相等 E. 两总体均数相等

6. 在统计检验中是否选用非参数统计方法( A )。 A. 要根据研究目的和数据特征作决定

B. 可在算出几个统计量和得出初步结论后进行选择 C. 要看哪个统计结论符合专业理论 D. 要看哪个P值更小

E. 既然非参数统计对资料没有严格的要求,在任何情况下均能直接使用 7. 配对样本差值的Wilcoxon符号秩和检验,确定P值的方法是( D )。

A. T越大,P值越小 B. T越大,P值越大

C. T值在界值范围内,P值小于相应的α D. T值>界值,P值大于相应的α值 E. T值在界值范围上,P值大于相应的α

8. 成组设计两样本比较的秩和检验,其检验统计量T是( C )。

A. 为了查T界值表方便,一般以秩和较小者为T B. 为了查T界值表方便,一般以秩和较大者为T C. 为了查T界值表方便,一般以例数较小者秩和为T D. 为了查T界值表方便,一般以例数较大者秩和为T

E. 当两样本例数不等时,任取一样本的秩和为T都可以查T界值表

二、思考题

1.假设检验中,P值和α的含义是什么?两者有什么关系?

答:P是指H0成立时出现目前样本情形的概率最多是多大, α是事先确定的检验水准。但P值的大小和α没有必然关系。

2. 既然假设检验的结论有可能有错,为什么还要进行假设检验?

答:假设检验中,无论拒绝不拒绝H0,都可能会犯错误,表现为拒绝H0时,会犯Ⅰ类错误,不拒绝H0时,会犯Ⅱ类错误,但这并不能否认假设检验的作用。只要涉及到抽样,就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概率性的结论,它的理论基础是“小概率事件不可能原理”。

3. 配对设计资料能否用完全随机设计资料的统计检验方法?为什么?

答:不能。采用完全随机设计资料的t检验会使检验效能降低,从而可能会使应有的差别检验不出来。

4. 对于完全随机设计两样本定量资料的比较,如何选择统计方法?

答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐,采用t 检验;如果满足正态性但总体方差不齐,采用t′检验;当两者都不满足时,才考虑选用秩和检验。当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。 5. 为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”?

答:秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”,是因为取不取“平均秩次”对该组的总的秩和没有影响。

三、计算题

1. 某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组,定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12),问饲料中维生素E缺乏对肝中维生素A的平均含量有无影响?

教材表6-12 正常饲料组与维生素E缺乏组大白鼠肝中维生素A含量/

(U·mg1)

-

大白鼠对别 1 2 3 4 5 6 7 8

正常饲料组 3.55 2.60 2.40

3.00 1.80

3.95 3.20

3.80 3.25

3.75 2.70

3.45 2.40

3.05 1.75

维生素E缺乏组 2.45

解:此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体(W检验:P=0.268),所以采用配对t检验。结果为:t=6.837,?=7,P<0.001,拒绝H0,可以认为维生素E缺乏对肝中维生素A含量有影响。

2. 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标。实验结果如下,请比较两组的平均生存日数有无差别。

实验组 对照组

10 2

12 3

14 6

15 7

15 8

17 9

18 10

20 12

26 12

80 13

30

解:此题是个完全随机设计的资料。两组资料的正态性检验结果表明,差值来自正态总体(W检验:P1<0.001,P2=0.011),所以采用两样本比较的秩和检验。结果为:T1=150.5, T2=80.5,本例中n1=10,n2-n1=1,对应双侧0.05的界值为81~139,故在α=0.05的水平上拒绝H0,认为两组小鼠生存日数不同。

(施学忠 杨永利 赵耐青)

第7章 多组定量资料的比较

思考与练习参考答案

一、最佳选择题

1. 完全随机设计资料的方差分析中,必然有( C )。

A. SS组间>SS组内 B. MS总?MS组间?MS组内 C. D. MS组间?MS组内 E. ?组内??组间 2. 定量资料两样本均数的比较,可采用( D )。

A. t检验 B.F检验 C. Bonferroni检验 D. t检验与F检验均可 E. LSD检验

3. 当组数等于2时,对于同一资料,方差分析结果与t检验结果相比,( C )。

ss总=

SS组间+SS组内

A. t检验结果更为准确 B. 方差分析结果更为准确 C. 完全等价且t?D. 完全等价且F?F

t E. 两者结果可能出现矛盾

4. 若单因素方差分析结果为F?F0.01(?1,?2),则统计推断是( D )。

A. 各样本均数都不相等 B. 各样本均数不全相等 C. 各总体均数都不相等 D. 各总体均数不全相等 E. 各总体均数全相等 5. 完全随机设计资料的方差分析中,组间均方表示( C )。

A. 抽样误差的大小 B. 处理效应的大小 C. 处理效应和抽样误差综合结果

D. N个数据的离散程度 E. 随机因素的效应大小 6. 多样本定量资料比较,当分布类型不清时应选择( D )。

A. 方差分析 B. t检验 C. Z检验 D. Kruskal-Wallis检验 E. Wilcoxon检验 7. 多组样本比较的Kruskal-Wallis检验中,当相同秩次较多时,如果用H值而不用校正后的Hc值,则会( C )。

A. 提高检验的灵敏度 B.把一些无差别的总体推断成有差别 C. 把一些有差别的总体推断成无差别 D.Ⅰ、Ⅱ类错误概率不变 E. 以上说法均不对

二、思考题

1. 方差分析的基本思想和应用条件是什么?

答:方差分析的基本思想是,对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲, 根据试验设计的类型和研究目的,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论各种研究因素对试验结果有无影响。

其应用条件是,① 各样本是相互独立的随机样本,均服从正态分布;② 各样本的总体方差相等,即方差齐性。

2. 多组定量资料比较时,统计处理的基本流程是什么?

答:多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两两比较。

三、计算题:

1. 根据教材表7-11资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响生存日数?若结论为“有影响”,请作多重比较(与对照组比)。

教材表7-11 各组大鼠接种后生存日数/天 伤寒 5 7 8 9 9 10 10 11 11 12

百日咳 6 6 7 8 8 9 9 10 10 11

对照 8 9 10 10 10 11 12 12 14 16

解:本题资料可考虑用完全随机设计的单因素方差分析进行统计处理。 (1)建立检验假设,确定检验水准。

H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。

H1:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相

等,?=0.05。

(2)方差分析应用前提条件的检验 首先进行正态性及方差齐性检验,三组均服从正态分布(P1=0.684,P2=0.591,P3=0.507),三个总体的方差齐(P=0.715),符合单因素方差分析的条件,可行方差分析。

(3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总

体均数的置信区间如下:

表1三组大鼠接种后生存日数的描述性统计量/天

95%置信区间

伤寒 百日咳 对照 合计

N 10 10 10 30

均数 9.20 8.40 11.2 9.60

标准差

下限

2.10 1.71 2.39 2.34

7.70 7.17 9.49 8.73

上限 10.70 9.63 12.91 10.47

(4)资料的方差分析见方差分析表 方差分析结果F?4.776,P?0.017,即大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。

表2三组大鼠接种后生存日数差别有无统计学意义的方差分析表 变异来源 组间 组内 合计

SS 41.6 117.6 159.2

df 2 27 29

MS 20.800 4.356

F 4.776

P 0.017

进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。

表3三组大鼠接种后生存日数两两比较的结果

对比组

XA?XB

SXA?XB

P 均数差值的95%置信区间 下限

上限 -0.09 -0.89

伤寒组与对照组 百日咳组与对照组

2.0 2.8

0.9333 0.9333

0.041 0.006

-3.92 -4.72

2. 将18名乙脑患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗,观察指标为治疗后的退热时间,结果见教材表7-12。问三组治疗结果的差异是否具有统计学意义? 教材表7-12 三组乙脑患者的退热时间/天

治疗分组 单克隆抗体组 胸腺肽组

0 32

2 13

退热时间 0 6

0 7

5 10

9 2

利巴韦林组 0 11 15 11 3 1

解:从专业上考虑,退热时间一般不服从正态分布,可采用Kraskal-Wallis检验分析三组乙脑患者的退热时间差异有无统计学意义。

(1) 各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下:

表1三组乙脑患者退热时间的描述性统计量/天

组别 单克隆抗体组 胸腺肽组 利巴韦林组

N 6 6 6

P25 0.00 5.00 0.75

P50 1.00 8.50 7.00

P75 6.00 17.75 12.00

(2)建立检验假设,确定检验水准。

H0:三组乙脑患者的退热时间相等,

H1:三组乙脑患者的退热时间不等或不全相等,

?=0.05。

(3)Kraskal-Wallis检验结果,?=4.799,?=2,P=0.091>0.05。结论为,在α=0.05的水平上尚不能认为三组治疗结果的差异具有统计学意义。

(王 玖 徐天和 高 永 石德文)

2第8章 定性资料的比较 思考与练习参考答案

一、最佳选择题

1. 定性资料的统计推断常用( D )。

A. t检验 B. 正态检验 C. F检验 D. ?检验 E. t′检验 2. 两组二分类资料发生率比较,样本总例数100,则?检验自由度为( A )。

A. 1 B. 4 C. 95 D. 99 E. 100 3. 四格表?检验中,?

A. 两总体率不同 B. 不能认为两总体率不同 C. 两样本率不同 D. 不能认为两样本率不同

E. 以上都不对

4.等级资料比较宜采用( E )。

A. t检验 B. ?检验 C. F检验 D. 正态检验 E. 秩和检验 5. 为比较治疗某病的新疗法与常规方法,试验者将100名患者按性别、年龄等情况配成对子,分别接受两疗法治疗。观察得到有28对患者同时有效,5对患者同时无效,11对患者新药有效常规治疗无效。欲比较两种疗法的有效率是否相同,应选择的统计分析方法为( D )。

A. 独立的两组二分类资料比较?检验 B. 独立的两组二分类资料比较校正?检验

C. 配对的两组二分类资料比较?检验 D. 配对的两组二分类资料比较校正?检验

E. Fisher确切概率法

22222二、思考题

1. 简述?检验适用的数据类型。

答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。

2. 两组二分类资料的设计类型有几类?其相应的检验方法是什么?

答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。完全随机设计资料应用公式(8-1)或(8-4),配对设计资料应用公式(8-7)或(8-8)。 3. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。

答:提示:进行有序资料的比较时宜采用秩和检验。秩和检验步骤为:① 建立假设

2H0和H1,并确定检验水准?;② 根据不同的设计类型对资料进行编秩并计算秩和;③ 根

据计算的秩和直接查表或计算相应的统计量再查表,确定P值下结论。进行有序资料的比较时宜采用秩和检验。

4. 试证明对于R×C式(8-11)与式(8-1)等价。

提示:

χ???2i?1j?1RCRC(Aij?Tij)2Tij2???i?1j?1RC(Aij?nimj/n)2nimj/n???ni?1j?1RAij?2Aijnimj/n?(nimj/n)2nimjAijAijAij2?n??(i?1j?1RCnimj2?2Aijn?nimjn2)?n(??i?1RCj?1nimjC2?2?1)?1)?n(??i?1j?1nimj三、计算题

1. 某医院观测了28例肝硬化患者和14例再生障碍性贫血患者血清中抗血小板抗体, 结果是:肝硬化患者中有2例阳性,再生障碍性贫血患者中有5例阳性。问:两类患者血清抗血小板抗体阳性率有无差别?

解:将资料进行整理列表(练习表8-1)。

练习表8-1 两类患者血清抗血小板抗体检测结果 患者类型 肝硬化患者 再生障碍性贫血患者

阳性 阴性 合计 2 26 28 5 9 14

资料属于独立的两组二分类资料比较。理论频数分别为4.67、23.33、2.33、11.67,应选用校正公式计算。假设H0:两种疾病患者血清抗血小板抗体检测阳性率相同,?=0.05。计算统计量校正卡方=3.621 4,自由度=1,P=0.057 0, 无统计学意义,尚不能认为两种疾病患者血清抗血小板抗体检测阳性率不同。

2. 对100名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊断,结果见教材表8-18。试比较用两种方法检验的阳性率有无差别?

教材表8-18 两种方法的检验结果比较(例数) 间接免疫 荧光 +

+ 66

显微镜凝集

合计

- 11

77

- 合计

6 72

17 28

23 100

解: 答案提示,本资料属于配对的两组二分类资料比较,b+c=11+6=17<40,应选用校正配对卡方公式计算。假设H0:两种方法检测的阳性率相同,计算统计量χ? ?=0.05。0.9412,df=1,P=0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。 3. 研究两种不同的治疗训练方案对肥胖症患者的减肥效果情况,结果见教材表8-19。问这两种治疗训练方案对肥胖症患者的减肥效果是否相同?

教材表8-19 两种治疗训练方案对肥胖症患者的减肥效果(例数) 治疗方案 甲 乙 合计

效果较好 16 28 44

效果一般 22 17 39

效果较差 8 5 13

合计 46 50 96

2解:该资料属于结果变量为有序变量的定性资料,应选用秩和检验。假设H0:两种治疗方案对肥胖症患者的减肥效果相同,?=0.05。按照治疗效果由差到好编秩,计算秩和

T甲? 1974,统计量U=-2.064,P=0.039,有统计学意义,可以认为两种治疗方案的减

肥效果不同,由两组平均秩和看,甲组为1 974÷46=42.91,乙组为2 682÷50=53.64,因为编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。

4. 比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表8-20。三种方剂的治疗效果是否有差异?

教材表8-20 三种中药方剂对骨质疏松症的治疗效果(例数) 分组 A方剂 B方剂 C方剂 合计

有效 18 12 11 41

无效 6 14 15 35

合计 24 26 26 76

解:本题属于独立的多组二分类资料比较。假设H0:三种方剂对骨质疏松症的治疗效

果相同,?=0.05。计算统计量χ?6.3350,df=2,P=0.042,差别有统计学意义,

2拒绝H0,接受H1,尚不能认为这三种方剂的治疗效果不相同。

(郭秀花 罗艳侠)

第9章 关联性分析 思考与练习参考答案

一、最佳选择题

1. 对简单相关系数作假设检验,t?t(v),统计结论为( B )。

A. 两变量不相关 B. 两变量有线性关系

C. 两变量无线性关系 D. 两变量不会是曲线关系,一定是线性关系 E. 上述说法都不准确

2. 计算积矩相关系数要求( C )。

A. Y是正态变量,X可以不满足正态的要求 B. X是正态变量,Y可以不满足正态的要求 C. 两变量都要求满足正态分布规律 D. 两变量只要是测量指标就行

E. Y是定量指标,X可以是任何类型的数据

3. 对两个分类变量的频数表资料作关联性分析,可用( C )。

A. 积矩相关 B.秩相关 C. 关联系数 D. 线性相关 E.以上均可

4. 由样本算得相关系数r,t检验结果为P<0.01,说明( D )。

A. 两变量之间有高度相关性 B. r来自高度相关的总体

C. r来自总体相关系数为0的总体 D. r来自总体相关系数不为0的总体 E. r来自总体相关系数大于0的总体

二、思考题

1. 1988年某地抽查0~7岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关,你认为应选用什么统计方法?为什么?

教材表9-10 1988年某地抽查0~7岁儿童营养不良患病情况 年龄/岁 患病人数 患病率/%

0~ 98 15.7

1~ 278 11.7

2~ 86 12.9

3~ 29 7.4

4~ 59 8.9

5~ 82 7.3

6~7 34 5.1

解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不服从正态分布。 2. 请查找最近三年主题为相关分析或关联分析的已发表国内医学文献,至少认真阅读其中3

篇(建议分别选取Pearson、Spearman相关分析和关联分析各1篇),找出其中不妥之处。 3. 在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结果。请举一两个实例说明这种现象。 三、计算分析题

1. 某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表教材9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学好?

教材表9-11 18名学生的智商、数学成绩和语文成绩

编号 1 数学成绩X 语文成绩Y 智商得分Z

78 83 95

2 84 76 100 11 48 53 61

3 61 70 100 12 45 43 60

4 52 58 75 13 67 70 88

5 93 82 105 14 75 78 96

6 89 78 97 15 95 97 125

7 98 89 110 16 88 92 113

8 98 95 120 17 99 92 126

9 65 61 76 18 81 88 102

编号 10 数学成绩X 语文成绩Y 智商得分Z

73 75 92

解:提示,数学与智商的相关系数(Pearson)为0.918,语文与智商的相关系数为0.958,数学与语文的相关系数为0.932。各总体相关系数均不为0。

数学好或者语文好与智商有关系。不能认为数学好的原因是语文好,或者语文好的原因是数学好,两者之间不存在因果关系。

2. 将10份研究生院的入学申请书让两位老师排序,结果见教材表9-12。请问两人的排序是否相关?

教材表9-12 两位老师对10份入学申请书的排序

申请书编号

A老师的排序 B老师的排序

1 6 7

2 10 8

3 5 5

4 1 4

5 7 6

6 2 3

7 8 9

8 9 10

9 3 1

10 4 2

解:提示,Spearman相关系数为0.842,总体相关系数不为0(P=0.002),可以认为两人的排序相关。

3. 关于丈夫和妻子关节炎的患病率分析中,100对中年夫妇的患病情况见教材表9-13,试分析丈夫和妻子关节炎的患病有无关系。

教材表9-13 100对中年夫妇的患病情况

妻子患病情况

丈夫患病情况

合计

有病 无病 合计

有病 16 24 40 无病 24 36 60

22 40 60 100

解:提示,运用交叉分类2×2列联表的关联分析,?=0.00,χ0.05=3.84>0.00,在α=0.05的水平下,不拒绝H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关联。

(凌 莉 刘清海)

第10章 简单线性回归分析

思考与练习参考答案

二、最佳选择题

1.如果两样本的相关系数r1?r2,样本量n1?n2,那么( D )。

A. 回归系数b1?b2 B.回归系数b1?b2 C. 回归系数b1?b2 D.t统计量tb1?tr1 E. 以上均错

2.如果相关系数r=1,则一定有( C )。

A.SS总=SS残差 B.SS残差=SS回归

C.SS总=SS回归 D.SS总>SS回归 E.MS回归=MS残差

3.记?为总体相关系数,r为样本相关系数,b为样本回归系数,下列( D )正确。

A.?=0时,r=0 B.|r|>0时,b>0 C.r>0时,b<0 D.r<0时,b<0 E. |r|=1时,b=1

4.如果相关系数r=0,则一定有( D )。

A.简单线性回归的截距等于0 B.简单线性回归的截距等于Y或X C.简单线性回归的SS残差等于0 D.简单线性回归的SS残差等于SS总 E.简单线性回归的SS总等于0

5.用最小二乘法确定直线回归方程的含义是( B )。

A.各观测点距直线的纵向距离相等 B.各观测点距直线的纵向距离平方和最小

C.各观测点距直线的垂直距离相等 D.各观测点距直线的垂直距离平方和最小 E.各观测点距直线的纵向距离等于零

二、思考题

1.简述简单线性回归分析的基本步骤。

答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

答:区别:

(1)资料要求上,进行直线回归分析的两变量,若X为可精确测量和严格控制的变量,则对应于每个X的Y值要求服从正态分布;若X、Y都是随机变量,则要求X、Y服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。

(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。

(3)两个系数的意义不同。r说明具有直线关系的两变量间相互关系的方向与密切程度,b表示X每变化一个单位所导致Y的平均变化量。

(4)两个系数的取值范围不同:-1≤r≤1,???b??。 (5)两个系数的单位不同:r没有单位,b有单位。 联系:

(1)对同一双变量资料,回归系数b与相关系数r的正负号一致。b>0时,r>0,均表示两变量X、Y同向变化;b<0时,r<0,均表示两变量X、Y反向变化。

(2)回归系数b与相关系数r的假设检验等价,即对同一双变量资料,tb?tr。由于相关系数r的假设检验较回归系数b的假设检验简单,故在实际应用中常以r的假设检验代替b的假设检验。

(3)用回归解释相关:由于决定系数R=SS回 /SS总 ,当总平方和固定时,回归平方和的大小决定了相关的密切程度。回归平方和越接近总平方和,则R越接近1,说明引入相关的效果越好。例如当r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。但R=(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明两变量间的相关关系实际意义不大。

3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?

答:现将相关系数、决定系数与Y的总变异的关系阐释如下:假如在一回归分析中,回归系数的变异数SS回归=9,而Y的总变异数SS总=13,则

2决定系数R =SS回归 / SS总=9/14=0.642 9/1,相关系数R=0.801 8

222即将决定系数表示为一比值关系,当SS总= l时,则SS回归= 0.642 9,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。

三、计算题 SS回归 SS回归 练习图10-1 相关系数、决定系数与总变异的关系 面积=0.642 9 面积=9 SS残差 边长=0.801 8 边长=3 面积=4 SS残差 边长=2 1. 以例10-1中空气一氧化氮(NO)为因变量,风速(X4)为自变量,采用统计软件完成如下分析: SS回归 SS残差 SS回归 SS残差 (1)试用简单线性回归方程来描述空气中NO浓度与风速之间的关系。 =0.642 9 =0.357 1 =9 =4 ? (2)对回归方程和回归系数分别进行假设检验。SS总=1 SS总=13 (3)绘制回归直线图。 (4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。 (5)风速为1.50 m/s时,分别计算个体Y值的95%容许区间和Y的总体均数的95%置信区间,并说明两者的意义。

解:运用SPSS进行处理,主要分析结果如下:

(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下: Coefficients(a) Unstandardized Standardized 95% Confidence Interval for B Coefficients Coefficients t Sig. B Std. Error Beta Lower Bound Upper Bound Constant 0.159 0.019 0.000 0.120 0.198 8.422 -0.053 0.012 -0.680 -4.345 0.000 -0.078 -0.028 风速 (2)方差分析结果:

ANOVA(b) Regression Residual Total Sum of Squares 0.038 0.044 0.081 df 1 22 23 Mean Square 0.038 0.002 F 18.878 Sig. 0.000(a) (3)回归直线如练习图10-2。

练习图10-2 回归直线图

?)与2. 教材表10-8为本章例10-1回归分析的部分结果,依次为X、Y、Y的估计值(Y?与X、Y与Y?、Y与残差(e),请以相关分析考察四者之间的关系,以回归分析考察Y?、Y?Y?与X之间的关系,并予以解释。 Y?Y教材表10-8 案例分析中回归分析的部分结果

X Y ? Y? X Y Y?Y? Y? Y?YX Y ? Y? Y?Y1.30 0.07 0.070 7 -0.004 7 1.20 0.10 0.054 8 1.44 0.08 0.093 5 -0.017 5 1.48 0.13 0.098 6 0.045 2 1.12 0.04 0.041 5 -0.002 5 0.030 4 1.66 0.06 0.127 1 -0.068 1 0.79 0.00 -0.010 8 0.011 8 1.82 0.14 0.153 1 -0.018 1 1.54 0.09 0.108 1 -0.021 1 1.65 0.17 0.126 5 0.043 5 1.44 0.10 0.092 2 0.006 8 0.96 0.04 0.016 8 0.022 2 1.76 0.16 0.142 9 0.013 1 0.95 0.01 0.014 9 -0.009 9 1.78 0.22 0.147 4 0.074 6 1.75 0.12 0.142 6 -0.022 6 1.44 0.01 0.092 9 -0.081 9 1.50 0.15 0.101 7 0.043 3 1.20 0.04 0.054 8 -0.014 8 1.08 0.00 0.036 5 -0.033 5 1.06 0.03 0.032 7 -0.003 7 1.50 0.12 0.102 4 0.017 6 1.84 0.14 0.156 9 -0.016 9 1.44 0.10 0.092 2 0.006 8 解:主要分析结果:

(1)四者之间的相关系数 Correlations

X

1 0.809 1.000 0.000

Y

0.809

1 0.809 0.586

Yhat

1.000 0.809

1 0.000

Y?Yhat

0.000 0.586 0.000 1

X Y Yhat Y?Yhat

** Correlation is significant at the 0.01 level (2-tailed).

(2)四个变量间的回归系数 因变量

自变量

截距 -0.136 1.005 0.088

回归系数 0.159 0.001 0.999

t 456.016 6.457 3.394 0.000

P

0.000 0.000 0.003 1.000

? YY Y

? Y?YX

? Y? Y?YX

0.000 014 7 0.000 010 5

?与X呈完全正相关关系,回归系数t 检验结果P =0.000,表明Y?的变异可由X 完Y全解释。

?的相关系数与Y与X 的相关系数相同,表明正是由于X 的影响引起Y的变Y与Y?关系即体现了Y与X的变化关系。 异,Y与Y?体现了扣除X的影响后,Y与残差仍呈正相关关系。 Y与Y?Y?与X呈零相关关系,表明扣除了X的影响,回归方程的残差与X不再有相关或Y?Y回归关系。

(张岩波 郝元涛)

第11章 多重线性回归分析

思考与练习参考答案

一、 最佳选择题

1. 逐步回归分析中,若增加自变量的个数,则( D )。

A. 回归平方和与残差平方和均增大 B. 回归平方和与残差平方和均减小 C. 总平方和与回归平方和均增大 D. 回归平方和增大,残差平方和减小 E. 总平方和与回归平方和均减小

2. 下面关于自变量筛选的统计学标准中错误的是( E )。

A. 残差平方和(SS残差)缩小 B. 确定系数(R)增大

2C. 残差的均方(MS残差)缩小 D. 调整确定系数(Rad)增大

2E. Cp统计量增大

3. 多重线性回归分析中,能直接反映自变量解释因变量变异百分比的指标为 ( C )。

A. 复相关系数 B. 简单相关系数 C.确定系数 D. 偏回归系数 E. 偏相关系数 4. 多重线性回归分析中的共线性是指( E )。

A.Y关于各个自变量的回归系数相同 B.Y关于各个自变量的回归系数与截距都相同

C.Y变量与各个自变量的相关系数相同 D.Y与自变量间有较高的复相关 E. 自变量间有较高的相关性

5. 多重线性回归分析中,若对某一自变量的值加上一个不为零的常数K,则有( D )。

A. 截距和该偏回归系数值均不变 B. 该偏回归系数值为原有偏回归系数值的

K倍

C. 该偏回归系数值会改变,但无规律 D. 截距改变,但所有偏回归系数值均不改变 E. 所有偏回归系数值均不会改变

二、思考题

1. 多重线性回归分析的用途有哪些?

答:多重线性回归在生物医学研究中有广泛的应用,归纳起来,可以包括以下几个方面:定量地建立一个反应变量与多个解释变量之间的线性关系,筛选危险因素,通过较易测量的变量估计不易测量的变量,通过解释变量预测反应变量,通过反应变量控制解释变量。

2. 多重线性回归模型中偏回归系数的含义是什么?

答:偏回归系数的含义是:在控制其他自变量的水平不变的情况下,该自变量每改变一个单位,反应变量平均改变的单位数。

3. 请解释用于多重线性回归参数估计的最小二乘法的含义。 答:最小二乘法的含义是:残差的平方和达到最小。 4. 如何判断和处理多重共线性?

答:如果自变量之间存在较强的相关,则存在多重共线性。可以通过分析自变量之间的相关系数、计算方差膨胀因子和容忍度等指标判断是否存在多重共线性。如果自变量间存在多重共线性,最简单的处理办法是删除变量,即在相关性较强的变量中删除测量误差大的、缺失数据多的、从专业上看意义不是很重要的或者在其他方面不太满意的变量。其次,也可采用主成分回归方法。

5. 如何判断、分析自变量间的交互作用?

答:基于专业背景知识,构造可能的交互作用项,并检验交互作用项是否有统计学意义。 6. 多重线性回归模型的基本假定有哪些?如何判断资料是否满足这些假定?如果资料不满足假定条件,常用的处理方法有哪些?

答:多重线性回归的前提条件是线性、独立性、正态性和等方差性,可以借助残差分析

等方法判断资料是否满足条件。如果资料不满足前提条件,可以采用变量变换和非线性回归等方法处理。

三、计算题

为确定老年妇女进行体育锻炼还是增加营养会减缓骨骼损伤,一名研究者用光子吸收法测量了骨骼中无机物含量,对三根骨头主侧和非主侧记录了测量值,结果见教材表11-20。分别用两种桡骨测量结果作为反应变量对其他骨骼测量结果作多重线性回归分析,提出并拟合适当的回归模型,分析残差。

解:答案提示,需要对自变量进行筛选,而且要考虑是否存在多重共线性,如果存在,应进行适当的处理。

教材表11-20 骨骼中无机物的含量

受试者编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

主侧桡骨 1.103 0.842 0.925 0.857 0.795 0.787 0.933 0.799 0.945 0.921 0.792 0.815 0.755 0.880 0.900 0.764 0.733 0.932 0.856 0.890 0.688 0.940 0.493 0.835 0.915

桡骨 1.052 0.859 0.873 0.744 0.809 0.779 0.880 0.851 0.876 0.906 0.825 0.751 0.724 0.866 0.838 0.757 0.748 0.898 0.786 0.950 0.532 0.850 0.616 0.752 0.936

主侧肱骨 2.139 1.873 1.887 1.739 1.734 1.509 1.695 1.740 1.811 1.954 1.624 2.204 1.508 1.786 1.902 1.743 1.863 2.028 1.390 2.187 1.650 2.334 1.037 1.509 1.971

肱骨 2.238 1.741 1.809 1.547 1.715 1.474 1.656 1.777 1.759 2.009 1.657 1.846 1.458 1.811 1.606 1.794 1.869 2.032 1.324 2.087 1.378 2.225 1.268 1.422 1.869

主侧尺骨 0.873 0.590 0.767 0.706 0.549 0.782 0.737 0.618 0.853 0.823 0.686 0.678 0.662 0.810 0.723 0.586 0.672 0.836 0.578 0.758 0.533 0.757 0.546 0.618 0.869

尺骨 0.872 0.744 0.713 0.674 0.654 0.571 0.803 0.682 0.777 0.765 0.668 0.546 0.595 0.819 0.677 0.541 0.752 0.805 0.610 0.718 0.482 0.731 0.615 0.664 0.868

资料来源:《实用多元统计分析》(第4版),Richard A. Johnson & Dean W. Wichern,陆 璇译,清华大学出版社。

(郝元涛 张岩波)

第12章 实验设计 思考与练习参考答案

一、最佳选择题

1. 处理因素作用于受试对象的反映须通过观察指标来表达,则选择指标的依据具有( E )。

A. 客观性 B. 特异性 C. 敏感性 D. 特异性和敏感性 E. A与D

2. 以前的许多研究表明,血清三酰甘油的含量与冠心病危险性有关,即三酰甘油的含量越

高,患冠心病的危险性就越大,有的医生以此筛选危险人群。后来的研究表明,冠心病还与其他因素有关,特别是血清中高含量胆固醇和低含量的高密度脂蛋白,它们常与冠心病同时发生联系,采用严格的实验设计平衡了其他因素的作用后,发现三酰甘油的含量与冠心病发病的危险性之间的联系就不复存在了。这是以下选项中的( B )选项把握得较好所致。

A. 重复实验次数较多 B. 均衡性原则考虑得周到 C. 用多因素设计取代单因素设计 D. 提高实验人员的技术水平 E. 严格按随机化原则进行分组

3. 实验共设4个组,每组动物数均为4只,在4个不同的时间点上对每只犬都进行了观测,资料概要列于教材表12-7中,此资料取自( B )。(注:B100 mg代表用B药的剂量)

教材表12-7 Beagle犬受6.5 Gy不均匀γ射线照射再用B药后外周血白细胞总数的结果

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 时 间 白细胞总数(X?S,×10/L)

─────────────────────────────────────── /天 照射对照 照射+B100 mg 照射+阳性对照药 照射+B100 mg+阳性对照药 ──────────────────────────────────────────── 照射前 14.30±3.77 14.70±2.83 14.08±1.60 13.98±1.37

照射后: 6 3.68±0.82 4.26±1.40 5.28±1.52 6.90±0.97 12 7.23±0.83 7.44±1.10 8.75±1.02 10.53±1.57 18 6.87±1.50 9.26±1.36 9.87±1.23 12.78±1.83

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

9

A. 具有一个重复测量的两因素 B. 具有一个重复测量的三因素设计 C. 两因素析因设计 D. 三因素析因设计 E. 交叉设计 4. 已知A、B、C都是三水平因素,且根据预试验结果得知,三个因素之间的各级交互作用都很重要,需要考察。好在这个实验作起来比较方便,需要的费用和时间都比较少。最好选用( A )。

A. 析因设计 B. 交叉设计 C. 随机区组设计 D. 配对设计 E. 单因素三水平设计

二、思考题

1. 在行走速度和行程固定的前提下,负荷越重,体能消耗越多。为研究在4种不同的负荷量条件下,消耗的体能之间的差别是否有统计学意义,拟用4名战士,在4个不同日期进行实验,并且每人每天只接受1种负荷量实验1次。已知因素之间的交互作用可忽略不计,用energy代表体能消耗量,请选用合适的实验设计方法并以表格形式给出具体的安排。

答:本题中涉及一个实验因素(即负荷)、两个区组因素(即受试对象和试验日期),这三个因素间的交互作用可以忽略,可选用拉丁方设计。设计方案见练习表12-1。

练习表12-1 拉丁方设计的格式与实验结果

受试对

负荷代号与energy

象编号 *: 1 1 2 3 4

A(1) B(5) C(9) D(13)

2 B(2) C(6) D(10) A(14)

3 C(3) D(7) A(11) B(15)

4 D(4) A(8) B(12) C(16)

注:A、B、C和D分别代表4种负荷,括号中的编号形式上代表观测的energy值;*代表“试验顺序”。

2. 如果某项实验研究中需要考察3个实验因素,各因素均取4个水平,拟用析因设计来安排此项实验,问至少要进行多少次实验才便于考察各级交互作用对观测结果的影响?请说出计算的依据。

答:至少要进行128次实验。计算方法为4?4?4?2=128。因为析因设计中不同的实验条件数为全部因素的水平数相乘,各实验条件下至少要作2次独立重复实验。

3. 欲探讨用微型角膜刀行角膜深板层内皮移植术的适应证、临床疗效及并发症的预防及处理,用微型角膜刀对6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术。术后随访6~9个月。结果表明,5例患者视力明显提高,患者术后平均角膜内皮细胞密度为(2 481±212) 个/ mm,角膜中央厚度平均为(549±61) μm ,散光为(2 104±1 119)D,未发生严重并发症。得如下结论:用微型角膜刀行角膜深板层内皮移植术是治疗大疱性角膜病变的可选术式。与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台,但远期疗效尚需继续随访。请问该研究是否遵循了实验设计的基本原则?应如何设计该实验?

答:该实验仅凭选取了6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术后5例患者视力明显提高,就得出“该方法是治疗大疱性角膜病变的可选术式”的结论,与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台。首先该研究违反了对照的原则。没有设立对照组,仅凭6例中5例术后视力明显提高,但没有与传统的穿透性角膜移植相比,不具有说服力。正确的做法是:首先选取一定数量的患有大疱性角膜病变眼的患者,将患有大疱性角膜病变眼随机分成两组,接受两种手术方法的治疗。若病情、病程等非处理因素对预后有影响,则应尽量保证两组之间在重要的非处理因素上均衡。然后再对两种手术方法术后的治疗效果进行比较。

4. 某人将教材表12-8资料所对应的实验设计看成了多个成组设计用t检验进行分析是不正确的,究其原因是没能正确判断该实验设计的类型,故不能选用正确的分析方法。请分析该实验所涉及的因素及其水平数,确定该实验设计类型。

教材表12-8 不同药物对小鼠迟发超敏反应的影响结果X?S

药 物 对照 补肾药 补肾药

剂量/(g·kg)

- 5 10

-1

??鼠数/只 10 10 10

耳肿重量/mg 21.2±2.7 22.3±3.5 18.8±3.1

补肾药 Cy

Cy+补肾药 Cy+补肾药 Cy+补肾药 20 0.025 0.025+5 0.025+10 0.025+20 10 10 10 10 10 16.5±2.4 11.2±1.5 14.3±2.9 18.6±3.6 19.2±3.4

注:补肾药全称为补肾益寿胶囊。

答:采用t检验处理该资料是很不妥当的。因为它不是多个单因素2水平的设计定量资料。按教材表12-8的列表方式,使人不易看出实验设计的类型。像单因素8水平设计问题,又像是两个单因素4水平设计问题或是某种多因素设计问题。这是缺乏有关设计类型概念的人们习惯的列表方式,在选用统计分析方法时将起着严重的误导作用。

仔细看看教材表12-8中以“药物”和“剂量”为总称的这两列,似乎该实验涉及了“药物”和“剂量”这样两个因素,事情是否果真如此,不妨试列出由它们组合成的表格(练习表12-2)。

练习表12-2 教材表12-8资料的第一种变形结果(X?S)

药物种类 补肾药 Cy药

#: 0

21.2±2.7 2 1.2±2.7

耳肿重量/mg

0.025

.

11.2±1.5

5

*

10

*

20

*

22.3±3.5 18.8±3.1 16.5±2.4

注:各组均有10只小鼠,“.”表示补肾药未用的剂量;“*”表示Cy药未用的剂量;“#”代表“补肾药的剂量”。

显然,练习表12-2未全面、正确地表达教材表12-8所包含的信息,又无法反映出两种药合用的结果,故从原表中抽象出“药物”和“剂量”这样两个因素是不够正确的转换方式。事实上,原表中所反映的是两种药具有各自的用药剂量,故将“补肾药的剂量”和“Cy药的剂量”视为两个实验因素,问题就迎刃而解了(练习表12-3)。

练习表12-3 教材表12-8资料的第二种变形结果(X?S) Cy药剂量 -1

/(g·kg) *: 0 0 0.025

21.2±2.7 11.2±1.5

耳肿重量/mg 5 22.3±3.5

14.3±2.9

10 18.8±3.1 18.6±3.6

20 16.5±2.4 19.2±3.4

注:*代表“补肾药的剂量”;各组均有10只小鼠。

由练习表12-3可以清楚地看出,原表中的8个组,其本质是分别具有2水平和4水平的两个因素的水平组合,即两因素(或称2×4)析因设计,而不是单因素8水平设计,也

不是两个单因素4水平设计问题。

5. 请从公开发表的学术论文中去查找使用频率最高的三种实验设计类型,即单因素设计、析因设计和重复测量设计。如果论文中将这些实验设计类型表达得不够清楚,请采用“结构变形”或“拆分组别”等技巧重新表达,并清楚地指出其真正的实验设计类型。(答案略)

(胡良平 李长平)

第13章 临床试验设计 思考与练习参考答案

一、最佳选择题

1. 赫尔辛基宣言问世的年份是 ( D )。

A. 1961年 B. 1962年 C. 1963年 D. 1964年 E. 1965年 2. 以下未参加ICH的国家是 ( E )。

A. 美国 B. 日本 C. 加拿大 D. 欧盟 E. 澳大利亚

3. 我国《药品注册管理办法》规定,新药Ⅱ期临床试验,试验组病例数不得少于( B )。 A. 60 B. 100 C. 200 D. 300 E. 400

4. 在一般临床试验中,通常受试者的服药量在( C )以下,认为依从性比较差。 A. 60% B. 70% C. 80% D. 90% E. 95% 5. 在注册药品的临床试验中,盲底可以保存在( A )处。 A.申办者 B.研究者 C.监察员 D.统计人员 E.稽查员

二、思考题

1.临床试验通常分为哪四期,各期的主要目的分别是什么?

答:Ⅰ期临床试验:初步的临床药理学及人体安全性评价试验。观察人体对于新药的耐受程度和药代动力学,为制定给药方案提供依据。

Ⅱ期临床试验:治疗作用初步评价阶段。其目的是初步评价药物对目标适应证患者的治疗作用和安全性,也包括为Ⅲ期临床试验研究设计和给药剂量方案的确定提供依据。此阶段的研究设计可以根据具体的研究目的采用多种形式,包括随机盲法对照临床试验。 Ⅲ期临床试验:治疗作用确证阶段。其目的是进一步验证药物对目标适应证患者的治疗作用和安全性,评价利益与风险关系,最终为药物注册申请的审查提供充分的依据。试验一般应为具有足够样本量的随机盲法对照试验。

Ⅳ期临床试验:新药上市后由申请人进行的应用研究阶段。其目的是考察在广泛使用条

件下的药物的疗效和不良反应、评价在普通或者特殊人群中使用的利益与风险关系以及改进给药剂量等。

2.在临床试验开始之前,应做哪些必要的准备工作?

答:应当了解临床试验相关法规,了解临床试验相关指导原则,了解临床试验的伦理学原则,了解在哪里以及作哪些临床试验。

3. 临床试验方案是指导参与临床试验所有研究者如何启动和实施临床试验的研究计划书,也是试验结束后进行资料统计分析的重要依据。临床试验方案中应包括哪些主要内容?

答:通常临床试验方案应包括首页、方案摘要、研究背景资料、试验目的、试验设计、受试者的选择和退出、治疗方案、临床试验步骤、不良事件的观察、观察指标、数据管理、期中分析(无)、统计分析、试验的质量控制和保证、伦理学要求、资料保存、参考文献、主要研究者签名和日期。

4. 病例报告表(简称CRF)是药品临床研究中十分重要的研究资料。CRF在设计上没有统一的格式,但是需要遵循一定的原则,其原则有哪些?

答:CRF在设计上没有统一的格式,但是需要遵循一定的原则。例如,CRF必须全部体现临床试验方案中要求观测的内容;CRF条目应当尽量使用选择方式;CRF的每一页都必须有研究者的签字和日期;同一观测指标在不同时点的观测值不能在同一页CRF中填写,CRF中不能出现患者姓名、地址等相关信息;CRF中不能出现受试者化验单等原始资料。 5. 临床试验设计的基本原则包括哪些?

答:临床试验必须遵循对照、随机、重复和均衡的原则。

6. 在新药临床试验中,数据管理过程中的盲态审核是十分重要的环节之一。请谈谈盲态审核的操作程序。

答:盲态审核是指最后一个病历报告表输入数据库以后,直到第一次揭盲之前,对数据库数据进行的核对和评价。当所有病例报告表经双份输入并核对无误后,由数据管理员写出数据库检查报告,其内容包括试验完成情况(含脱落受试者清单)、入选/排除标准检查、完整性检查、逻辑一致性检查、离群数据检查、时间窗检查、合并用药检查、不良事件检查等。在盲态审核会议上,由主要研究者、申办者、监查员、数据管理员和生物统计专业人员对受试者签署的知情同意书、试验过程盲态保持情况和试验过程的紧急揭盲情况等作出审核,对数据库检查报告中提出的问题作出决议,并写出盲态审核报告,数据库同时将被锁定。

7. 谈谈双盲临床试验中应急信件的准备、发放和回收。

答:信封上印有×××药物的临床试验的应急信件、药品编号和遇紧急情况揭盲的规定。如果拆阅,需注明拆阅者、拆阅日期、原因等,并在病例报告表中记录。信纸上印有×××药物临床研究、药品编号及分组。信纸装入相应的信封后密封,随药物发往各个临床试验中心,在试验结束后统一收回。信纸上写明该药盒所放置的具体药物名称、处理方法及应立即汇报的单位和地址。

(胡良平吴圣贤 葛毅 李长平方 亚)

第14章 调查设计 思考与练习参考答案

一、最佳选择题

1. 为了解某校锡克试验的阳性率,研究者从该校80个班中随机抽取8个班,然后调查这些班中的所有学生。此种抽样方法属于( D )。

A. 单纯随机抽样 B. 系统抽样 C. 分层抽样 D. 整群抽样 E. 多阶段抽样

2. 在下列研究中,研究者不能人为设置各种处理因素的是( A )。

A. 调查研究 B. 实验研究 C. 临床试验 D. 社区干预试验 E. 横断面研究 3. 统计工作的关键步骤是( A )。

A. 调查或实验设计 B. 收集资料 C. 整理资料 D. 分析资料 E. 归纳资料

4. 理论而言,在同样条件下,下列抽样方法中抽样误差最大的是( C )。

A. 单纯随机抽样 B. 系统抽样 C. 整群抽样 D .分层抽样 E. 多阶段抽样

5. 在相同条件下对同一调查对象重复测量结果的一致性程度称作( C )。 A. 内容效度 B. 结构效度 C. 重测信度

D. 内部信度 E. 分半信度

6. 衡量问卷是否包含足够的反映所测特征的条目的指标是( A )。

A. 内容效度 B. 结构效度 C. 重测信度 D. 内部信度 E. 分半信度

7. 为使调查结果具有更高的可信度,在开展抽样调查工作中,应遵循的原则是(A. 随机 B. 重复 C. 对照 D. 均衡 E. 以上均是 8. 关于调查表的设计,下列说法不妥的是( D )。 A. 每个项目要具体、明确

B. 要考虑将来数据处理的方法

E )。

C. 调查项目的确定取决于调查目的 D. 必须先作大型的预调查

E. 必要的项目一项不少,不必要的项目一项不列 9. 下列( A )不是普查的目的。

A. 验证病因假设 B. 早期发现患者 C. 描述疾病的分布特征

D. 可向群众普及医学知识 E. 可提供病因线索 10. 在调查研究中,保护调查对象隐私的主要方法是( D )。 A. 将调查对象的电话与其他信息分开

B. 将调查对象的家庭住址与其他信息分开 C. 将调查对象的工作单位与其他信息分开 D. 将调查对象的姓名与其他信息分开 E. 将调查对象的性别与其他信息分开

11. 某研究者在对某地区20~25岁所有妇女进行的一项调查中发现,口服避孕药的妇女,其宫颈癌的年发病率为5/10万,而未服用避孕药的妇女,其宫颈癌的年发病率为2/10万,由此作出口服避孕药引起宫颈癌的推论( E )。 A. 正确

B. 不正确,因为未在年龄分布方面可能存在的差异进行调整 C. 不正确,因为没有区分发病率与患病率

D. 不正确,因为需要用率而不是比率来支持这一推论 E. 不正确,因为在其他有关因素上,这两组妇女可能存在差异

12. 为研究吸烟与肺癌的关系,某研究者采取了两种研究方法:一种是将人群分为吸烟组与不吸烟组,然后随访两组发生肺癌的结局;另一种是将吸烟者随机分组,一组采取戒烟干预,而另一组不戒烟,然后盲法观察两组的肺癌结局。这两种研究方法的根本区别是( D )。

A. 是否设立对照组 B. 是否进行统计学检验

C. 是否在现场人群中进行 D. 是否人为控制研究条件 E. 是否检验病因假设

二、思考题

1. 在某项关于近视眼发病因素的病例对照研究中,研究者发现,越是作眼保健操的人越易

患近视眼。其实,这是一种假象。请解释导致这种假象的原因。

答:也许存在患有近视的人作眼保健操的多,即病例组因患有近视而重视眼保健操,而对照组因未患近视而忽视眼保健操。

2. 某从事政治教育的机构,对在押妓女进行教育,观察以后是否从良。研究结果表明,在未失访的全部被教育对象中,彻底改掉原先恶习的人所占的比例相当高,故得出结论:所采取的教育方法非常得力,教育成果巨大。请问:这个评价结论是否科学?为什么?

答:这个评价结论不科学。因在未失访的全部被教育对象中,彻底改掉原先恶习的人所占的比例相当高,这里未交待失访情况,也许这些失访者并未改掉原先恶习,故对教育方法是否得力作出评价需慎重。

3. 病例-对照研究为什么不能计算患病率?横断面研究可否计算患病率?可否计算时点患病率?队列研究可否计算患病率和发病率?为什么?

答:病例-对照研究不能计算患病率,因为总人口中的病例数及未病人数不详;横断面研究可计算时点患病率,因它可获得某地某时点的总人数;队列研究可计算患病率和发病率,因它可获得总人口中的新旧病例数及未病人数。

4. 某研究者在进行吸烟与肺癌关系的调查研究中,以肺结核患者和慢性支气管炎患者作为对照人群。请问:这样选择对照组有何不妥?

答:在该研究中,肺结核和慢性支气管炎是混杂因素。

5. 诱导性问题是指由于问题的措辞、内容等方面的原因使调查对象有意无意地不得不选择某种答案。有鉴于此,在调查表的设计中,不可使用诱导性问题。请问:在调查设计中,一旦使用了诱导性问题,将意味着什么?

答:在调查设计中,一旦使用了诱导性问题,将意味着存在应答信息偏倚。

(方 亚 胡良平 高 永 周诗国)

第15章 样本含量估计 思考与练习参考答案

一、最佳选择题

1. 在假设检验中,样本含量的确定( C )。

A. 只与Ⅰ类错误概率?有关 B. 只与Ⅱ类错误概率?有关 C. 与?、?都有关 D. 与?、?都无关

E. 只与?、?有关

2. 以下关于检验功效的描述,不正确的是( C )。

A. 假设检验中,若H0客观上不成立,但根据假设检验的规则,将有?大小的概率错误地得出“差异无统计学意义”的推断结论,这种错误称为Ⅱ类错误,相应地,推断正确的概率为1??,称为检验功效。

B. 检验功效受客观事物差异的大小、个体间变异的大小、样本量和?值等要素的影响。 C. 假设检验的“阴性”结果(P>0.05)可以作为“总体参数之间的差异无统计学意义”这一结论的证据。

D. 假设检验得出“阴性”结果(P>0.05)是“总体参数之间的差异无统计学意义”这一结论的必要条件而非充分条件。

E. 当假设检验出现“阴性”结果(P>0.05)时,有必要复核样本含量和检验功效是/否偏低,以便正确分析假设检验“阴性”结论的正确性。

3.在调查研究中,计算配对设计均数比较所需样本含量的公式为( A )。

A. n?[(t??t?)S?] B. n?2?[2(t??t?)S?]2

2C. N?[(t??t?)S?]2 D. n?2p(1?p)(Z??Z?)(p1?p2)22

E. n?[Z?2p(1?p)?Z?p1(1?p1)?p2(1?p2)](p1?p2)2

4. 在调查研究中,计算两样本率比较所需样本含量的公式为( E )。

A. n?[(t??t?)S?]2 B. n?2?[(t??t?)S?]2

2C. N?[(t??t?)S?]2 D. n?2p(1?p)(Z??Z?)(p1?p2)22

E. n?[Z?2p(1?p)?Z?p1(1?p1)?p2(1?p2)](p1?p2)2

5. 有很多人都认为,只要样本含量大于30就可以称其为大样本,可用大样本条件下推导出来的一切公式进行相应的统计分析。下列说法中( C )最正确。

A. 题中所说的条件和结论都正确

B. 题中所说的条件正确,但结论不正确 C. 题中所说的条件和结论都不正确 D. 题中所说的条件不正确,但结论正确

E. 题中所说的条件和结论正确概率为70%,错误概率为30%

6.在研究一个因变量依赖多个自变量变化规律时,估计样本含量非常复杂,有人提供了一个经验估算方法,即样本含量N(即拟观测的个体数目)至少应当是自变量个数的10倍。下列说法中( B )最正确。

A. 此法无任何参考价值

B. 在没有精确算法时,此法有一定的参考价值 C. 此法根本不能用 D. 此法永远是正确的

E. 此法正确的概率为80%,错误的概率为20%

二、思考题

1. 决定样本含量的依据有哪些?

答:决定样本含量的依据有:① 犯Ⅰ类错误的概率α,即检验水准。② 犯Ⅱ类错误的概率?。③ 总体平均数?(或总体概率?)、总体标准差?。?(?)、?一般未知,通常以样本的X(p)、S作为估计值,多由预实验、查阅文献、经验估计而获得。④ 处理组间的差别?(所比较的两个总体参数间的差别?),如???1??2或???2??1。若研究者无法得到总体参数的信息,可作预实验来估计,也可根据专业要求由研究者规定。 2. 当假设检验的结果为“阴性”(P>0.05)时,对样本含量和检验功效进行复核有何意义?

答:当假设检验的结果为“阴性”(P>0.05)时,对样本含量和检验功效进行复核具有重要意义。通过对样本含量和检验功效进行复核(主要是计算检验功效),可以检查样本含量和检验功效是否偏低,以便正确认识假设检验的结果,避免得出错误的研究结论。若检验功效偏低,则说明样本含量不足,应加大样本含量,重新进行实验。

三、计算题

1. 据说某民族正常人体温平均高于37℃,为了进行核实,拟进行抽样调查。如果就总体而言平均高出0.1℃便不可忽略,而已知正常人体温的标准差约为0.2℃,那么,为了将Ⅰ、Ⅱ

类错误的概率控制在??0.05和??0.05,试估计样本含量。

解:据题意,要核实某民族正常人平均体温是否高于37℃,就是要通过抽样对该民族正常人的平均体温作出估计,并检验该平均体温是否高于37℃。很显然,应采用单侧检验。又已知?=0.10,?=0.20,??0.05,??0.05,先取df??,则

t?(?)?t0.05(?)n(1)=1.645,

t?(?)?t0.05(?)2=1.645,将数据代入公式(15-1),得

?(t??t?)S??(1.645?1.645)?0.2?2??????0.1??=??=43.3?44

(1)df?n?1?43,则 取

t?(43)?t0.05(43)?1.681n(2),

2t?(43)?t0.05(43)?1.681,代入公式算得:

?(t??t?)S??(1.681?1.681)?0.2?2??????0.1??=??=45.2?46

(1)df?n?1?45,则 取

t?(45)?t0.05(45)?1.6792,

t?(45)?t0.05(45)?1.679,代入公式计算得:

n(2)2?(t??t?)S?(1.679?1.679)?0.2???????0.1??=???=45.1?46

可取n?46,即需从该民族的正常人群中随机抽取46人进行调查。

2. 某人在进行上述调查之前未经估算便人为决定取样本量n?25。试估计检验功效。

解:据题意,有n?25,?=0.10,?=0.20,??0.05,Z??Z0.05?1.645,将数据代入公式(15-20),得

Z???n0.125?Z???1.645?0.855 ?0.20.8023?0.8051=0.803 7。

2查表,得检验功效

1???3. 为了比较两类片剂的溶解速率,决定各随机抽取10片,测定5 min溶解量,然后作

??0.05水平的检验。据预实验,两类片剂的变异性相同,标准差约为6个单位,均数之

差也约为6个单位,问该项研究的功效有多大?欲使功效达到95%,样本量应当多大?

解:已知n1?10,n2?10,??6,??6,双侧??0.05,Z?/2?Z0.05/2?1.96,将数据代入公式(15-23),得

Z????1/n1?1/n2?Z?/2=

661/10?1/10?1.96=0.276 1

查表,得检验功效

1???(0.6064?0.6103)?0.6084

2要使功效达到95%,需重新估计样本含量:

将数据??6,??6,t?/2(?)?t0.05/2(?)?1.96,t?(?)?t0.05(?)=1.645代入公式(15-6),得

N(1)?4(t?/2?t?)2S2?2(1)4(1.96?1.645)2?62??51.98?52

62取df?N?2?50,则

t?/2(50)?t0.05/2(50)??t0.05/2(40)?t0.05/2(60)??(2.021?2.000)/2?2.0105t?(50)?t0.05(50)??t0.05(40)?t0.05(60)??(1.684?1.671)/2?1.6775

将有关数据代入公式(15-6),得

N(2)?4(t?/2?t?)2S2?24(2.010 5?1.677 5)2?62??54.41?56(取比计算结果稍26大的偶数)

取df?N(2)?2?54,则

t?/2(54)?t0.05/2(54)?t0.05/2(60)?2.000 t?(54)?t0.05(54)?t0.05(60)?1.671

将有关数据代入公式(15-6),得

N(3)?4(t?/2?t?)2S2?24(2.000?1.671)2?62??53.90?54

62至此,可取N?54,即n1?n2?27。也就是说,欲使功效达到95%,当双侧??0.05,单侧??0.05时,样本含量应为每类片剂各27片。