教学提要
(一)《医用统计学》基本概念
1、变异:宇宙中的事物, 千差万别, 各不相同。即使是性质相同的事物, 就同一观察指标来看, 各观察指标(亦称个体)之间, 也各有差异, 称为变异。同质观察单位之间的个体变异, 是生物的重要特征, 是偶然性的表现。
2、变量:由于生物的变异特性, 使得观察单位某种指标的数值互相不等, 所以个体值称为变量值或观察值。
3、总体:即根据研究目的确定的同质的研究对象的全体。更确切地说, 是性质相同的所有观察单位的某种变量值的集合。
4、样本: 即从总体中抽取一部分作为观察单位进行观察,这部分观察单位称为样本。为了使样本对总体有较好的代表性,抽样必须遵循随机化的原则,即总体中每一观察单位均有相同的机会被抽取到样本中去。
5、计量资料(数值变量资料): 对每个观察单位用定量方法测定某项指标量的大小, 所得的资料称为计量资料, 一般有度量衡等单位。
6、计数资料(分类变量资料): 将观察单位按某种属性或类别分组, 所得各组的观察单位数, 称为计数资料。可分为二项式或多项式分类变量。
7、等级资料:将观察单位按某种属性的不同程度分组, 所得各组的观察单位数, 称为等级资料。这类资料与计数资料不同的是:属性的分组有程度的差别, 各组按大小顺序排列; 与计量资料不同的是:每个观察单位未确切定量, 因而称为半定量资料。
8、抽样误差:由于总体中各观察单位间存在个体差异, 抽样研究中抽取的样本, 只包含总体的一部分, 因而样本指标不一定等于相应的总体指标, 这种样本统计量与总体参数间的差别称为抽样误差。
(二)统计工作的基本步骤
1、设计: 这是关键的一步。要求科学、周密、简明。 2、搜集资料: 要求完整、准确、及时。
医学统计资料的来源主要有三个方面:(1) 统计报表; (2) 日常医疗工作的原始记录和报告卡片; (3) 专题调查
3、整理资料: 核查资料; 按性质或数量分组, 拟定整理表。
4、分析资料: 包括指标的计算、统计图表的绘制, 用统计方法如参数估计、假设检验等对资料作统计分析。 (三) 计量资料的分析
1、平均数: 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。
(1) 算术均数: 简称均数。用于描述对称分布(特别是呈正态分布)的变量值的平均水平。 直接法: ?x=?x/n
26
加权法: ?x=??x/??=??x/n 要点: 频数表的制作
(2) 几何均数: 用G表示。用于描述变量值呈等比数列, 或呈对数正态分布或近似对数正态分布资料。
直接法: G=??x1x2? x3? ?????? xn , G=lg( ?lgx/n ) 加权法: G=lg( ??lgx/?? )
(3) 中位数和百分位数: 中位数是一组从小到大顺序排列的变量值, 位于中间位置的数值,亦称为位置平均数, 代号为M。多用于描述偏态分布资料, 或分布不明资料, 或一端或两端无确定数值的开口资料的集中趋势。百分位数代号为PX, 是一种位置指标。 小样本资料中位数计算方法: 当n为奇数时 M=X(n+1/2) 当n为偶数时 M=[ X(n/2)+X(n/2+1) ] 大样本资料中位数和百分位数计算方法: PX =L+I ( n?x% - ??L ) 2、变异指标
(1) 全距: R, 亦称极差。即一组变量值中最大值与最小值之差。
(2) 标准差: 是最常用来衡量变量值间离散程度的变异指标。总体标准差代号?,样本标准差代号s。
运用:” 用来描述正态分布资料的变异程度。当资料呈正态或近似正态资料时往往将均数与标准差同时写出: ?X ? S, 表示均数的代表性。 (3) 变异系数: 又称离散系数。代号为CV。CV=
运用: 比较均数相差悬殊的几组资料的变异程度; 比较度量衡单位不同的几组资料的变异程度。
3、正态分布及其应用
(1) 正态分布: 是医学和生物学中最常见的总体频数分布, 以均数为中心, 对称,两侧逐渐下降, 两端永远不与横轴相交。正态分布用N(?, ?)表示, 为了应用方便, 常对变量X作u=( X - ? )/ ?变换, 使?=0, ?=1, 则正态分布转换为标准正态分布( 或呈U分布), 用N(0, 1)表示。 特征: 均数处最高;
以均数为中心, 左右对称; 有两个参数: ?和?;
态曲线下的面积分布有一定规律: 变量值范围 正态曲线下面积(变量值出现的概率) ? ? 1.0 ? 68.27% ? ? 1.96 ? 95.00% ? ? 2.58 ? 99.00% (2) 正态分布的应用: 常用于估计频数分布情况; 制定正常值范围。
正常值: 指正常人的各种生理常数。当资料呈正态分布时, 最常用X ? 1.96S估计95%正常
27
2
-1
-1
值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的80%、90%、95%和99%, 最常用95%。 4、均数的抽样误差和标准误 (1) 标准误的概念
即样本均数的标准差, 是说明均数抽样误差大小的指标。标准误愈小, 表示抽样误差愈小, 样本统计量对总体参数的估计愈可靠。 (2) 标准误的计算
?x=?/??n(总体标准误) sx=s/??n(样本标准误) (3) 标准误的应用
表示样本均数的散布情形; 估计总体均数的可信区间; 进行假设检验 5、t分布和总体均数的估计 (1) t分布的概念
对正态变量?X采用u=( ?X - ? )/ ?x变换, 将N(?, ?x)变换为标准正态分布, 即U分布, 而实际中?x往往用sx来估计, 这时对正态变量?X采用的不是U变换而是t变换, 即 t = ( ?X - ? )/ sx
其结果也不是U分布而是t分布。 (2) t分布的特征
与标准正态分布相比有以下特征:
a.二者都是单峰分布, 以0为中心, 左右对称;
b. t分布的峰部较矮而尾部翘得较高, 说明远侧的t值的个数相对较多, 即尾部面积 (概率P) 较大。自由度?越小这种情况越明显, ?逐渐增大时, t分布逐渐逼近标准正态分布; 当?=?时, t分布就完全成为标准正态分布了。 (3)t界值
t界值表, 横标目为自由度?, 纵标目为概率P, 表中数字表示自由度为?, P为?(检验水准)时, t的界值, 常记为t?,?。理论上
单侧: P( t ? - t?,?)= ?, 或P(t ? t?,?)= ?
双侧: P( t ? - t?,?)+P(t ? t?,?)= ?; P( - t?,? < t < t?,?)= 1 - ? (4)总体均数的估计
包括点值估计和区间估计。
a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。
b.区间估计的方法: ?X -- t?,? sx < ?
?未知但n足够大 ?X - U?,sx < ?
28
2
6、假设检验 (1) 概念
所谓假设检验, 就是根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断该假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小, 便于比较分析。 (2) 一般步骤
a.建立假设: H0: 无效假设。即假设样本指标与总体指标, 或样本与样本指标是相等的, 它们的差别是由抽样误差引起的。H1: 备择假设。是与H0相对立的假设。
b.确定检验水准: 亦称显著性水准, 代号为?, 是一个接受或拒绝H0的概率标准。常取? = 0.05或? = 0.01
c.选定检验方法和计算统计量: t检验, U检验, ?检验等。
2
d.确定P值:P值是指在由H0所规定的总体中作随机抽样, 获得等于及大于(或等于及小于)现有统计量的概率。
e.做出统计推断: 当P? ?时, 统计推断结论为按所取检验水准拒绝H0, 接受H1, 差别有显著性意义。
(3) 计量资料的假设检验
a.样本均数与总体均数的比较: H0: ? = ?0 t = ( ?X - ? )/ sx ? = n -1 b.配对资料的t检验: 即差值均数与总体均数0比较的t检验。
配对资料: 对同对的两个受试对象分别给予两种处理;对同一受 试对象分别给予两种处理; 同一受试对象处理前后的 比较。
H0: ?d = 0 t = ?d / sd
c.两样本均数的t检验: H0: ?1 = ?2 t = ( ?X1 - ?X2)/ sx1-x2 ? = n1 + n2 -2 d. 两大样本均数的U检验: H0: ?1 = ?2 U = ( ?X1 - ?X2)/ ?sx1+sx2e.多个样本比较F分析:F=MS组间/MS组内
(4) t、F检验的应用条件: a. 要求资料呈正态分步; b. 要求总体方差相等c.独立样本 (5) U检验的应用条件: 样本例数较大或总体标准差已知 (6) 第一类错误与第二类错误
第一类错误: 拒绝实际上是成立的H0, 概率为?。
第二类错误: 不拒绝实际上是不成立的H0, 概率为?, 1 - ?称为检验效能或把握度。 (7) 假设检验时应注意的问题 a. 要有严密的抽样研究设计;
b. 选用的假设检验方法应符合其应用条件; c. 正确理解差别有无显著性的条件意义; d. 结论不能绝对化;
29
2
2
e. 报告结论时注意应列出检验统计量值, 注明采用的是单侧或双侧检验, 写出P值确切范围。
( 四 )计数资料的分析
1、常用相对数: 分析计数资料的指标。 ( 1 ) 率: 表示某种现象发生的频度或强度。
率= 某现象实际发生例数/可能发生该现象的总例数 ? 比例基数( 习惯上以计算的率保留1 - 2位整数)
( 2 ) 构成比: 说明事物内部各组成部分所占的比重或分布。
构成比= 某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 ?100% ( 3 ) 相对比: 两个有关指标之比, 用以表示两个指标之间的对比关系。 2、应用相对数时应注意的问题 (1) 计算相对数的分母不宜太小; (2) 分析时不能以构成比代替率;
(3) 对观察单位数不等的几个率, 不能直接相加就其平均率; (4) 资料的对比应注意可比性: a.观察对象同质; b.内部构成相同。 (5) 对样本率( 或构成比 )的比较应遵循随机抽样, 要作假设检验。 3、标准化法
(1) 概念: 即采用一个共同的内部构成标准, 使两个样本或多个样本的不同内部构成调整为共同的内部构成标准, 以消除因内部构成不同对样本率的影响。标准化后的率叫标准化率。 (2) 计算方法: 直接法、间接法。
(3) 注意事项: a. 选定标准不同, 算得的标准化率也不同, 因此不能代表实际水平; b. 各组间若出现明显交叉, 不宜用标准化法; c. 两样本标化率的比较应作假设检验。 4、常用相对数指标
(1) 出生率=某年活产数/同年平均人口数 ? 1000% (2) 死亡率=某年死亡总数/同年平均人口数 ? 1000%
(3) 发病率=某人群某时期内新病例数/某人群同期平均人口数 ? K (4) 某病患病率=观察时点某病例数/同时点检查人数 ? K (5) 某病感染率=受检者感染某病原体人数/受检人数 ? K (6) 治愈率= 治愈病人数/接受治疗人数 ? 100%
(7) 某病病死率=某期间因某病死亡人数/同期该病患者 ? 100% (8) 生存率=n年末存活的病例数/随访满n年的病例数 ? 100% 5、率的抽样误差和率的标准误
(1) 概念: 由抽样造成的样本率与总体率的差别叫率的抽样误差。衡量率的抽样误差大小, 衡量样本率的稳定性的指标, 即率的标准误。
30
(2) 率的标准误的计算
?P =??( 1 - ? )/n SP =?P( 1 - P )/n (3) 总体率的区间估计
a. 查表法: n较小, 特别是p接近0或1时
b.正态近似法: n足够大, 样本率p和(1 - p)均不太小, 如np与n( 1 - p )均大于5时 ( p - u? SP , p + u? SP ) 6、计数资料的假设检验----U检验
(1) 条件: n足够大, 样本率p和(1 - p)均不太小, 如np与n( 1 - p )均大于5时, 样本率的分布呈正态分布。 (2) 样本率与总体率的比较
H0: ? = ?0 u =? p - ??/ ?P (3) 两样本率比较的u检验
H0: ?1 = ?0 u =? p1 - p2?/ SP1 - P2 7、计数资料的假设检验-----?检验 (1) 用途
常用于检验两个样本率(或构成比)之间的差异显著性, 也可用于检验多个样本率之间的差异显著性, 还可用于检验配对计数资料的差异显著性。 (2) 基本思想
? = ?( A - T)/T T = nRnC/n ?反映了实际频数与理论频数的吻合程度。 ?的大小取决于A - T的差值, 还取决于自由度?。 ? = ( 行数- 1 )( 列数- 1 ) (3) 四格表资料的?检验( 两样本率比较 ) 统计量的计算可用专用公式或基本公式 a. 基本条件: n > 40, T > 1 b. 校正条件: n > 40, 5 > T > 1
(4) 行 ? 列表的?检验( 多个样本率或构成比的比较) a. ?值的计算: ? = n( A/nRnC - 1 )
2
2
2
2
22
222
2
2
b. 注意事项: ?检验要求理论频数不宜太小, 一般认为不宜有1/5以上格子理论数小于5, 或有一个理论数小于1, 处理办法有: 增大一般含量, 最好; 删去理论频数太小的行或列; 合并性质相近的行或列。等级资料宜用秩和检验。当结论为拒绝检验假设, 只能认为各总体率( 或总体构成比 )之间总的来说有差别, 但不能说明它们彼此之间都有差别。 (5) 配对计数资料的?检验 a. H0 : b = c
b. ?=( b - c )/ b + c
31
2
2
2
c. b + c < 40, 需校正, ? =( ?b - c? - 1)/b + c d. ? = 1 (五) 统计表与统计图 1、统计表
(1) 基本结构与要求: 由标题、标目、线条、数字等组成
a. 标题: 要求中心内容突出, 必要时注明资料的时间、地点。 b. 标目: 横标目: 在表的左侧, 是表的主语位置。 纵标目: 在表的上方, 是表的谓语位置。
c. 线条: 分顶线、底线、纵标目下面与合计上面的横线,斜线、竖线省略。 d. 数字: 一律用阿拉伯数字。
e. 备注: 列于表的下面, 对表中标有 ( ?)的数字加以描述。 (2) 种类
a. 简单表: 被研究的事物只按一个特征或指标分组。
b. 复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。 2、统计图
(1) 基本要求: a. 依据资料的性质选择适当的图形;
b. 要有标题, 扼要说明资料的内容, 必要时注明时间、地点;
c. 以纵轴和横轴为坐标的图形, 横轴尺度自左而右, 纵轴尺度自下而上, 数 量一律由小到大, 并需等距标明。纵横坐标长度的比例一般为5? 7。 d. 比较不同事物时, 用不同的线条或颜色表示, 要附图例说明。 3、常用统计图
(1) 直条图: 用相同宽度条形的长短.来表示资料数值大小比例关系, 适用于按性质分组, 各个独立的、无连续关系的统计图。 (2) 百分条图: 适用于表达构成比的资料。
(3) 线图: 用线条的上升和下降来表示某事物( 或某现象 )因时间或条件而变化的趋势。 适用于连续性的变量资料。
(4) 直方图: 用于表示连续变量的频数分布。常以横轴表示被观察现象, 纵轴表示频数或 频率, 以各矩形( 宽度为组距 )的面积代表各组段的频数。 (六) 调查设计 1、调查方法
(1) 普查( 全面调查 ): 将组成总体的所有观察单位全部加一调查。
(2) 抽样调查: 从总体中随机抽取一定数量的观察单位组成样本, 然后用样本信息来推断 总体特征。
(3) 典型调查( 案例调查 ): 即在对事物作全面分析的基础上, 有目的地选定典型的人、典 型的单位进行调查。
32
22
2、调查项目和调查表
(1) 分析项目: 直接用于计算调处指标, 以及分析时排除混杂因素影响所必须得分内容。 (2) 备查项目: 便于核查、补填和更正而设置的, 通常不直接用于分析。 (3) 调查表的格式: 分为一览表和单一表。 (4) 随机抽样的方法: a. 单纯随机抽样; b. 系统抽样; c. 整群抽样; d. 分层抽样;
根据抽样误差的大小, 分层抽样 < 系统抽样 < 单纯随机抽样 < 整群抽样
第十章 线性相关与回归
(Linear Correlation & Regression ) 线性相关与回归 第一节 线性相关
第二节 线性回归
第三节 线性相关与回归的区别和联系
第三节 等级相关
线性相关(linear correlation) 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项 一、线性相关的基本概念
为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。
若一个变量X由小到大(或由大到小),另一变量Y亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系我们把这种关系称为直线相关。
线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:
33
1.正相关 2.负相关 3.无相关
线性相关系数
在分析两个变量X与Y之间关系时,常常要了解X与Y之间 有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。
皮尔森(Pearson)相关系数的计算公式为:
相关系数r没有测量单位,其数值为-1≤≤+1 相关系数的计算方法
计算时分别可用下面公式带入相关系数r的计算公式中
例10.1 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,
34
r?rXY??(X?X)(Y?Y)?(X?X)?(Y?Y)2ii?2LXYLXX.LYY身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前 臂长之间的相关系数。 编号
身高(cm) 前臂长(cm)
XY X2 Y2
(X) (Y)
1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 11 166 合计
47 7990 28900 2209 42 7266 29929 1764 44 7040 25600 1936 41 6355 24025 1681 47 8131 29929 2209 50 9400 35344 2500 47 8366 31684 2209 46 8418 33489 2116 49 8820 32400 2401 43 7095 27225 1849 44 3174 28561 2116
500 86185 326081 22810
1891
相关系数的显著性检验
与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。
常用的检验方法有两种:
1.按自由度直接查附表11的界值表,得到P 值。 2.用假设检验法,计算统计量 进行线性相关分析的注意事项
⒈ 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。
⒉ 相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。
⒊ 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。 ⒋ 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
35
相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X 、Y 中,当一个变量X 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数 r 表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示 Y 与 X 的线性关系。
根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。 进行线性回归分析的注意事项
⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。
⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X 。
⒊ 在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。 ⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。 第三节
线性相关和回归的区别与联系
⒈ 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布)。
⒉ 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。
⒊ 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。
⒋ 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。
第四节 等级相关
如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。 等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。 常用的等级相关方法是Spearman等级相关。
与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。
36
思考题与参考答案
《数值变量资料的统计描述 统计表与图》思考题
1.描述单变量资料的统计描述指标分哪两类,分别包括哪些指标? 2.试述平均数、标准差、变异系数的含意与用途。 3.什么是医学参考值?如何制定95%的参考值范围? 4.绘制统计表及统计图的原则与要求是什么? 5.常见的统计图有哪几种?它们的适用条件是什么? 《数值变量资料的统计推断》思考题 1.标准差和标准误有何区别和联系。
2.t检验和u检验的公式有哪些类型,在应用上有哪些异同? 3.在统计推断过程中,如何区别单侧检验和双侧检验。 4.可信区间和参考值范围有何不同? 5.假设检验和总体均数区间估计有何不同? 6.什么是一类错误与二类错误,有何关系? 7.方差分析的基本思想是什么? 8.描述t检验与F检验的适用条件。
《分类变量资料的统计描述与统计推断》思考题
1.常用的相对数指标有哪些?它们在计算和意义上有哪些不同? 2.率的标准化的意义和基本思想是什么? 3.试述率的标准误的意义和用途。
4.试述?检验的用途和各种?检验的适用条件。 5.列举R×C表?检验的注意事项。
6. 为什么不能以构成比代替率?请联系实际加以说明。 7. 应用相对数时应注意哪些问题?
《数值变量资料的统计描述 统计表与图》思考题
1、描述单变量资料的统计描述指标分哪两类,分别包括哪些指标? 答:单变量资料的统计描述指标分:
(1)集中趋势指标:包括算术平均数(简称均数)、几何均数、中位数与百分位数、众数、调和均数;
(2)离散趋势指标:包括全距、四分位数间距、方差、标准差、变异系数。 2、试述平均数、标准差、变异系数的含意与用途。 答:1、平均数
(1)含意:平均数是一类用于描述数值变量资料集中趋势(或平均水平)的指标,包括算术平均数(适用条件是资料呈正态分布或近似正态分布或对称分布)、几何平均数(适用于观察值非对称分布、其差距较大时,倍数关系或近似倍数关系)、中位数(适用于偏态分布、开口、分布
37
222不确定)、众数、调和均数。
(2)用途:描述数值变量资料集中趋势,进行事物之间的分析比较。 2 、 标准差
(1)含意:指将方差开平方,取平方根的正值。反映资料的离散程度。
(2)用途:①反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;②用于计算变异系数;③计算标准误;④结合均值与正态分布的规律估计医学参考值的范围。 3、变异系数
(1)含意:是将标准差转化为算术均数的倍数,以百分数的形式表示。
(2)用途:用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。 3、什么是医学参考值?如何制定95%的参考值范围?
答: 医学参考值是指绝大多数正常人的各种生理、生化数据,组织或排泄物中各种成分的含量范围。
制定95%的参考范围:从正常人总体中抽样;控制测量误差;判定是否需要分组确定参考范围;决定取单侧还是双侧;选定合适的百分界限;对资料的分布进行正态性检验;根据资料的分布类型选定适当的方法进行参考范围的估计。 4、绘制统计表及统计图的原则与要求是什么? 答:绘制统计表的原则:(1)重点突出,简单明了; (2)主谓分明,层次清楚; (3)数据准确,便于分析。
基本要求:(1)标题:简明扼要说明表的中心内容,必要时注明研究事物现象发生的时间、地点等。标题一般写在表的正上方。
(2)标目:横标目和纵标目。横标目列在表的左侧,表明被研究事物的主要特征;纵标目列在表的右上端,说明横标目内容的各项统计指标。标目的排列应有一定的次序。 (3)线条:一般包括顶线、纵标目下线、合计上线、底线。
(4)数字:表内数字一律用阿拉伯数字,同一指标的小数位数保留、单位、精度一致,上下位次对齐,表内不留空格。数据暂缺或未记录可用“…”,数据不可能得到用“—”,数据为“0”时则填0。
(5)备注:一般不列入表内,必要时可用“*”,解释在表的下面。
绘制统计图的原则:用几何图形的位置、大小、长短、面积等特征来表现数据信息,将数据形象化。与统计表相比,更直观。但只是粗略表达,只能做统计表的补充。
基本要求:(1)标题:概括图的内容,应简明确切,一般置于图域的下方。一篇文献中有多幅统计图时,标题前应表注序号。
(2)图域:长宽比例一般为7:5或5:7。 (3)标目:一般在纵轴左侧和横轴下方
(4)刻度:常用算术尺度和对数尺度,刻度值一般标注与纵轴外侧和横轴上侧。
38
(5)图例:图例一般放在横标目下方,若空间较多可放在图域中。 5、常见的统计图有哪几种?它们的适用条件是什么?
答:常用统计图有:按图示形式有条图、直方图、百分条图、圆图、散点图、线图、统计地图以及在探索性分析时用的茎叶图、残差图、箱式图,判别分析的类别分布图,聚类分析的谱系图等。
使用条件:(1)条图:适于彼此相互独立的现象间相同指标的比较。 (2)圆图:用于表示全体各部分的构成情况,百分比的情况。 (3)线图:适用于连续性变量或某一现象随另一现象变迁的情况。
(4)半对数线图:用语表示事物现象发展变化的速度(相对比),常用语两个或多个事物现象在发展速度上的对比。
(5)直方图:适用于某连续性资料的分布。 (6)散点图:适用于双变量统计分析。
(7)统计地图:用与显示不同地域事物数量的分布情况。 《数值变量资料的统计推断》思考题 1、标准差和标准误有何区别和联系。
答:区别:①标准差是表示个体之间的变异度,其值越大,说明变异程度越大。
标准差同时是表示观察值与样本均值之间的离散程度,标准差越大,说明离散程度越大,从而也说明均数反映平均水平代表性欠佳。
②标准误即样本均数的标准差。表示样本均数之间的变异度以及样本均数与总体均数之间的离散度。标准误越大,均数的抽样误差就越大,说明样本均数与总体均数的差异越大。 联系:
即当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根成反比。
2、t检验和u检验的公式有哪些类型,在应用上有哪些异同? 答:t检验和u检验的公式类型如下: ⑴ 样本均数与总体均数的比较: 已知总体均数
一般为理论值、标准值或经大量观察所得的稳定值。
样本与总体均数比较的目的是推断样本所代表的未知的总体均数μ与μ0是否相同。用统计量t的计算公式:
t?|X??0||X??0|?,??n?1SXSn
⑵配对资料的比较:用检验统计量t值公式:
⑶两个样本均数的比较:
①两个大样本均数的比较:当两个样本量较大(均>50)时,自由度足够大,可用u检验。
39
公式为:
u?X1?X2X1?X2??22SX1?X2S1S2?n1n2X1?X2SX1?SX222 ②两个小样本均数的比较:推断μ1是否等于μ2,作
在应用上的异同:t检验和μ检验通常用于两均数的比较。
与比较的t检验,公式为:
μ检验用于已知总体标准差情况下的样本均数与总体均数比较与大样本资料的两均数比较,要求资料服从对称或正态分布;
t检验常用于样本例数n较小、总体标准差未知时样本与总体均数的比较,配对设计资料的比较与两个样本均数的比较。
两样本均数比较时还要求所对应总体方差齐同,资料服从正态分布。 3、在统计推断过程中,如何区别单侧检验和双侧检验。
答:应事先根据专业知识和问题的要求,在实验设计时做出规定,而不能在计算出检验统计量后才确定。对同一份资料,单侧检验比双侧检验更易得到差别有显著性的结论。因此,在报告讨论时,应列出检验方法、检验统计量的值、检验水准和P值的确切范围,还要著名采用的是单侧检验还是双侧检验,然后结合专业做出结论。 4、可信区间和参考值范围有何不同?
答:可信区间反映区间包含总体均数的概率大小,即1-α大小,越趋近1越好;反映区间的长度,长度越小越好,即1-α一定,n越大精度越高。
参考值范围是正常人指标测定值的波动范围,参考值范围在诊断方面可用于划分正常或异常。
5、假设检验和总体均数区间估计有何不同?
答:总体均数区间估计是从总体中做随机抽样,每个样本可以算得一个可信区间,如95%可信区间,意味着做100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。
假设检验,就是根据研究目的,对样本所属总体特征提出一个假设,然后用适当的方法根据样本提供的信息,推断假设应当拒绝或不拒绝,使研究者了解在假设的条件下,差异由抽样误差引起的可能性大小。
6、什么是一类错误与而二类错误,有何关系?
答:一类错误是统计学中将拒绝了实际正确的无效假设Ho,即“弃真”,放弃本来成立的Ho所犯的错误,概率α表示, 常取α=0.05。
40
二类错误是将接受了实际上错误的无效假设Ho,概率用β表示,在统计学中将1-β称为检验效能,即“取伪”接受本来不成立的Ho所犯的错。
关系:一类误差认为规定,二类误差大小随一类误差增大而减小;增大样本量,可以同时减小两类误差。
客观实际 H0成立 H0 不成立
拒绝H0
第一类错误(α) 判断正确(1-β)
不拒绝H0 判断正确(1-α) 第一类错误(β)
7、方差分析的基本思想是什么?
答:将总变异分解成两个或多个变异,其中有一个是由随机误差引起的,而其他变异是由各自因素引起的。然后,比较各因素变异与误差引起的变异,评价由某种因素引起的变异是否具有统计学意义。
总变异=组内变异+组间变异
总变异:随机测量误差+个体变异+处理因素作用 组内变异:随机测量误差+个体之间变异
组间变异:随机测量误差+个体之间变异+处理因素作用 F=组间变异均方/组内变异均方 8、描述t检验与F检验的使用条件。
答:t检验的使用条件:常用于样本例数n较小、总体标准差未知是样本与总体的比较,配对设计资料的比较和两个样本均数的比较。要求所对应的总体方差齐同,资料服从正态分布。 F检验的使用条件:各样本来自正态分布的总体,且为相互独立的随机样本,各个样本所来自的总体相等。
《分类变量资料的统计描述与统计推断》
1、常用的相对数指标有哪些?它们的意义和计算上有和不同? (1)比例(构成比)
意义:用以说明事物内部各组成部分所占的比重或分布情况。
计算:构成比=事物内部某一组成部分的观察单位数/事物各组成部分观察单位总数(或×100﹪) (2)率
意义:用以说明某现象发生的频率或强度。
计算:一定时间内某现象发生率=一定时间内某现象实际发生的观察单位数/该时间段开始时的观察单位总数 (3)比
意义:两个有联系的指标之比。
计算:比=甲指标计数/乙指标计数(或×100﹪)
41
3、试述率的标准误的意义和用途。
意义:由于抽样而引起的样本率与总体率之间或样本率之间的差异称为率的抽样误差,其大小用率的标准误来表示。
用途:率的标准误反映抽样误差的大小,标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。
4、试述?2检验的用途和?2检验各种适用条件。
?2检验的应用:
1)两个或两个以上样本率之间差异有无显著性; 2)两个或两个以上样本构成比之间差异有无显著性; 3)两分类变量间有无相关关系; 4)频数分布的拟合优度检验;
5)实际频数与理论频数的吻合程度检验。
?2检验的应用条件:
1)n>=40,T>=5 卡方检验 2)n>=40,1 (1)对行?列表资料进行?2检验,要求不能有1/5以上的格子理论数小于5,或者不能有一个格子理论数小于1,否则将导致分析偏性。出现这些情况时可采取以下措施:1)增加观察例数; 2)合并相邻行或列的实际数; 3)删去太过小的行或列;4)精确概率检验法或似然比检验法。 (2)如假设检验的结果是拒绝无效假设,只能认为各总体率或构成比之间总的来说有差别,但并不是说它们彼此之间都有差别。 6、为什么不能以构成比代替率?请联系实际加以说明。 构成比是比例指标,它用来说明事物内部各组成部分所占的比重或分布,分子仅是分母中同一事物现象的一部分,是概率的估计值。率则与时间有关,它具有速率的概念,也具有概率估计值的意义,是与时间有关的比例。但在实际工作中,计算率时起始点暴露人数很难得到,有时常以时点人数代替,如婴儿死亡率、时点发病率等,实质上也是比例指标。 7、应用相对数时应注意哪些问题? ⑴计算相对数的分母不宜过小 ⑵分析时不能以构成比代替率 ⑶正确计算平均率 ⑷相互比较时应注意可比性。所要比较的研究对象同质,所比较资料的内部构成要相同,同一地区不同时期资料的对比,应注意客观条件有无变化。 样本率或构成比的比较应遵循随机抽样,要进行假设检验 综合练习题 42 (一)名词解释: 概率 总体 样本 变异 抽样误差 随机抽样 随机化原则 标准差 数值变量 计数资料 分类变量 等级资料 正态分布 t分布 U分布 率的标准化 相对数 假设检验 标准误 直线回归 直线相关 (二)填空: 1、统计工作的基本步骤包括 、 2、统计分析包括 3、误差可分为 和 和 、 , 其中关键的是 。 。 , 其中 不可避免, 但可用抽样设计来控制。 > > 。 、 4、四种基本抽样方法的抽样误差大小顺序为 5、频数分布可分为 6、 和 和 > 。 可全面描述正态分布的频数特征。 7、若频数分布明显呈偏态分布, 各观察值之间呈倍数关系, 宜用 反映其平均增减倍数。 8、比较度量衡单位不同的各组资料的变异度, 宜用 指标。 大, 的代表性较差。 9、对于两组正态分布资料, 且均数相近, 度量单位相同, 10、正态分布的特征有: 11、正常值指 可有 ; 。 ; 。 。制定正常值范围的方法根据指标的 而判断, 法和 12、标准误是 的标准差, 与标准差的关系可用公式 表示。 , 当?= ?, t?,?= 。 13、对于相同的?值, 越大, t?,?值 14、统计推断包括两个重要方面: 和 。 15、假设检验的目的是推断 。 性。 16、假设检验结果具有显著性意义, 是根据 而判定的, 结论具有 ;(2) 。 (2) 17、两样本均数比较的t检验, 要求(1) 18、两个或两个以上样本均数的比较, 可用 。应用时要求: (1) (3) 。 19、假设检验时根据检验结果作判断, 可能发生两种错误, 第一类错误的概率为 第二类错误的概率为 , 同时减少两类错误的唯一方法是 , (2) 。 , 。 20、构成比有两个特点: (1) 21、率的标准化的目的是 22、率的标准误Sp = 2 ,常用的计算方法有 , 是描述 和 和 。 的统计指标。 。 23、?检验的基本思想是比较 24、?的大小由 2 2 的吻合程度, 其基本公式是 和 两方面因素决定。 和两对 。 25、四格表?检验的基本数据是两对 26、四格表?检验的基本条件是 2 2 , 当 43 时, 需用校正公式。 2 27、配对计数资料?检验的无效假设是 , ?检验的公式是 。 28、统计表由 、 、 和 构成。编制统计表的总的原 则是 、 、 、 。 29、绘制统计表要求线条不宜过多, 除有 其余如竖线、斜线均不宜有。 30、统计图除圆图外, 长宽比例一般以 31、频数分布的两个重要特征是 为宜, 标题的位置是 和 。 。 线和 线以及 线以外, 32.总体标准差的含义是 。 33.1-α是指 。 34.三个样本率比较得到X> X0.05,v ,可认为 。 35.计数资料统计描述的主要指标有 等。 36.行X列表X检验应注意 ,否则,则应增大样本量, 。 37.两率比较U检验应用条件是 。 38.率的标准误可应用于 。 39.几何均数是将原始变量值作 变换,可使其成为 分布,再按类似于算术均数计算公式作计算。 40. 今已知甲、乙两地肝癌死亡率相等,但甲地老年人比重较大,若要比较两地肝癌死亡率情况,需求 。 41.方差分析的基本思想是 。 42. 方差分析的应用条件是 。 43.调查设计一般包括 设计和 设计,二者是紧密结合的。 44.调查可分为 和 ,后者又以 和 最为常用。 45.调查项目包括 和 ,前者直接用于 ,后者是为了 。 46.调查项目的答案有两种设计: 和 。 47.资料的设计分组有两种方法,它们是 和 。 48.实验设计的三个基本要素是 、 、 。 49.单纯随机抽样,估计总体均数所需样本数n时,需要实现确定 、 、 。 50.调查中系统误差的来源有 、 、 、 。 51.调查研究又称 ,其特点 、 。 52.概率是描述随机事件发生可能性的大小,用 表示。随机事件发生概率在 和 之间。 53.某市159名15岁女生体重均数?X=46.8Kg,标准差S=5.5Kg,估计本市15岁女生体重正常值应在 。 54.标准差的大小受 的影响,标准误的大小受 的影响。 (三)是非题: 卫生统计学研究的主要内容是社区医疗。 随机事件发生的概率小于0.05或0.01时,可认为在一次抽样中它不太可能发生。 44 2 2 2 变异系数越大表示标准差越大。 正态分布的特点有算术均数等于中位数。 在假设检验中,本应是双侧检验的问题而误用了单侧检验水准,当拒绝H0时,则增大了第二类错误。 率是说明某现象发生强度的指标。 配对设计四格表资料比较两个率有无差别的无效假设是b=c. 四格表资料的自由度为1。 随着样本含量的逐渐加大,标准误与标准差则逐渐变小。 10.只研究某一种药物预防、治疗某疾病时,可以不设置对照组。 如果有少数几个数据比大部分数据大几百倍,这组资料就不宜计算算术均数。 标准误越大,说明样本均数的抽样误差越大。 两组计量资料的假设检验是否采用t检验,主要取决于样本含量。 两个大样本(一般n>30例)均数的比较可用样本均数与总体均数差异的显著性检验。 构成比可说明某种事物发生的可能性大小。 x值反映了实际数与理论数之吻合程度,如果假设成立,则A与T之差一般不会很大,因而P值也不会很大。 两样本比较得P<0.05,此时一定可认为两总体率不同。2行3列X检验,理论数不可小于5。 行×列表x检验,若1/5格子以上1 方差分析总变异可分为组间变异和组内变异。 调查项目是设计统计调查方案时应考虑的首要因素。( ) 普查和抽样调查的目的不同,前者为了了解总体,后者为了了解局部。( ) 蒙牛公司推出一种新的液态奶,让本公司职员对这种奶品尝并做出评价,这属于分层抽样。 (四)单项选择题 1、抽样误差是指 A. 不同样本指标之间的差别 B. 样本指标与总体指标之间由于抽样产生的差别 C. 样本中每个体之间的差别 D. 由于抽样产生的观察值之间的差别 E. 测量误差与过失误差的总称 2、为了由样本推断总体, 样本应该是 A. 总体中任意的一部分 B. 总体中的典型部分 C. 总体中有意义的部分 D. 总体中有价值的部分 E. 总体中有代表性的部分 3、随机样本的特点有 A. 能消除系统误差 B. 能消除测量误差 C. 能缩小抽样误差 45 2 2 2 D. 能消除样本偏差 E. 以上都不是 4、搞好统计工作, 达到预期目标, 最重要的是 A. 原始资料要多 B. 原始资料要正确 C. 分析资料要先进 D. 整理资料要详细 E. 统计计算精度要高 5、计数资料、计量资料和等级资料的关系是 A. 计量资料兼有计数资料和等级资料的一些性质 B. 计数资料兼有计量资料和等级资料的一些性质 C. 等级资料兼有计量资料和计数资料的一些性质 D. 计数资料有计量资料的一些性质 E. 以上都不是 6、如果X服从总体均数为?, 总体标准差为?的正态分布, 则作u = ( x - ? )/?变换后, 有 A. u符合正态分布, 且均数不变 B. u符合正态分布, 且标准差不变 C. u符合正态分布, 且均数与标准差都不变 D. u符合正态分布, 且均数与标准差都改变 E. u不符合正态分布 7、某人群的某个生理指标或生化指标的正常值范围一般指 A. 该指标在所有人中的波动范围 B. 该指标在所有正常人中的波动范围 C. 该指标在绝大部分正常人中的波动范围 D. 该指标在少部分正常人中的波动范围 E. 该指标在一个人不同时间的波动范围 8、总体标准差描述的是 A. 所有个体值对总体均数的离散程度 B. 某样本均数对总体均数的离散程度 C. 所有样本均数对总体均数的离散程度 D.某些样本均数对总体均数的离散程度 E. 所有某个含量相同的样本均数对总体均数的离散程度 9、t分布曲线与标准正态曲线比较: A. 中心位置左移 B. 中心位置右移 C. 分布曲线平坦一些 D. 分布曲线陡峭一些 E. 两尾部翘得低一些 10、当数值变量分布末端无确切数据时, 平均数宜用 A. 均数 B. 几何均数 C. 中位数 D. 相对数 E. 四分位数 11、从同一正态分布总体中随机抽样, 理论上95%的样本均数在下述范围内 A. ?X ? 1.96 S?X B. ? ? 1.96 S?X C. ?X ? 1.96 ?x D. ? ? 1.96 ?x E. 以上都不对 12、下面哪一指标较小时, 可说明有样本均数估计总体均数的可靠性大 A. 变异系数 B. 标准差 C. 标准误 D. 极差 E. 四分位间距 13、横轴上, 正态曲线下从? - 1.96?到?的面积为 A. 95% B. 45% C. 97.5% D. 47.5% E. 49.5% 14、两样本均数比较作t检验, 差别有显著性时, P值越小, 说明 46 A. 两样本均数差别越大 B. 两总体均数差别越大 C. 越有理由认为两总体均数不同 D. 越有理由认为两样本均数不同 E. 第一类错误越大 15、假设检验过程中, 下列哪一项不可以由研究者事先设定 A. 所比较的总体参数 B. 单侧或双侧 C. 检验水准 D. P值 E. 以上都不对 16、若总例数相同, 则配对资料的t检验与成组资料的t检验相比 A. 成组t检验的效率高些 B. 配对t检验的效率高些 C. 两者效率相等 D. 两者效率相差不大 E. 两者效率不可比 17、用样本推断正态总体均数的95%可信区间的公式为 A. ?X ? 1.96 S?X B. ?X ? 1.96s C. ?X ? t0.05,?s D.?X ? t0.05,? S?X E. 以上都不是 18、甲、乙两人分别从随机数字表抽得30个(各取两位数字)随机数字,作为两个样本,求得S2 2 1;?X2、S2,则理论上 A.?X2 1??X2,S1? S2 2 B.作两样本均数的t检验,必然得到无差异的结论 C.作两方差的齐性的检验,必然方差齐 D.分别从甲、乙两样本求出总体均数的95%可信区间很可能有重叠 E.以上都不对 19、说明某现象发生强度的指标为 A. 构成比 B. 相对比 C. 定基比 D. 环比 E. 率 20、相对比所具有的特点是 A. 一定要小于100% B. 一定大于100% C.可以大于也可以小于100% D. 各相对比的和为100% E.以上都正确 21、用正态近似法进行总体率的区间估计, 应满足 A. n足够大 B. p或 (1 - p) 不太小 C. np或n (1 - p) 均大于5 D. 以上均要求 E. 以上均不要求 22、R?C列联表?2检验的自由度为 A. R-1 B. C-1 C. R+C-1 D. R?C-1 E. (R-1) (C-1) 23、R?C列联表?2检验应注意 A. 任一格理论数小于5则要用校正公式 B. 任一各实际数小于5则要用校正公式 C. 任一格理论数小于5则应将相应组合并 D. 任一格实际数小于5则应将相应组合并 E. 以上都不对 24、?2 检验不适用于 A. 两个率差别的显著性检验 B. 多个率差别的显著性检验 47 X1、 ?C. 两组或多组构成比差别的显著性检验 D. 相对比差别的显著性检验 E. 频数分布拟和优度检验 25、已知男性的钩虫感染率高于女性, 今欲比较甲、乙两乡居民的钩虫感染率, 但甲乡人口女多于男, 而乙乡男多于女, 适当的比较方法是 A. 分性别进行比较 B. 两个率比较的?检验 C.对性别进行标准化后再比较 D. 不具可比性 E. 用秩和检验 26、四个样本率比较, ? > ?0.01,(3), 可认为 A. 各总体率不等或不全相等 B. 各总体率均不相等 C. 各总体率均相等 D. 各样本率均不相等 E. 各样本率不等或不全相等 27、用大样本估计总体率的95%可信区间的计算公式为 A. ? ? 1.96sp B. p ? 1.96 S?X C. ? ? 1.96 S?X D. p ? 1.96sp E. p ? t0.05,?sp 28、计算某年某病的发病率的分子是 A. 该年年初有该病人数 B. 该年年中有该病人数 C. 该年年末有该病人数 D. 该年平均患该病人数 E. 以上都不是 29、计算某年总死亡率的分母是 A. 年初人口数 B. 年中人口数 C. 年末人口数 D. 年任意时刻人口数 E. 上年末人口数 30、一组1000名女性乳腺癌患者, 其中50例为孕妇, 据此可推断 A. 孕妇易患乳腺癌 B. 孕妇不易患乳腺癌 C. 妊娠可诱发患乳腺癌 D. 乳腺癌与妊娠无关 E. 该组乳腺癌患者中5.0%是孕妇 31、关于显著性检验, 下列叙述哪项不正确 A. 资料须符合随机抽样的原则 B. 资料须具有可比性 C. t检验条件必须两样本的方差不能相差太大 D. 相差有显著性说明比较的两样本来自不同总体 E. 相差有显著性说明比较的两总体差别较大 32、以下哪种调查属于可作统计推断的范围 A. 普查 B. 抽样调查 C. 典型调查 D. 普查与抽样调查 E. 非全面调查 33、比较某地区某年3种疾病的发病率, 可绘制 A. 条图 B. 百分条图 C. 线图 D. 半对数线图 E. 直方图 34、不同性质的统计资料, 常用不同的统计图加以表达, 一般来讲 A. 连续性资料宜用直条图 B. 连续性资料宜用园图或构成图 C. 按性质分组的资料宜用线图 D.按质分组的资料宜用直方图或多边图 E. 以上都不对 35、统计分析表有简单表和复合表两种, 复合表是指 A. 有主词和宾词 B. 主词分成2个或2个以上标志 48 2 2 2 C. 宾词分成2个或2个以上标志 D. 包含2张简单表 E. 包含2张或2张以上简单表 36、一个调查设计的指标是指 A. 调查表的调查项目 B. 调查表的备考项目 C. 调查表的调查项目和备考项目 D. 预期分析指标 E. 以上都不是 37、已知某山区、丘陵、湖区婴幼儿体格发育有较大的差异, 现需制定该省婴幼儿体格发育有关指标的正常值范围, 调查设计最好采用 A. 单纯随机抽样 B. 分层随机抽样 C. 整群抽样 D. 机械抽样 E. 以上都不是 38、不可计算中位数作为代表值的是 A. 正偏态分布 B. 负偏态分布 C. 分布类型未知资料 D. 一切非连续性资料 E. 变量值一端或两端无确定值 39 -40共用选择 A. 普查 B. 抽样调查 C. 典型调查 D. 病例对照研究 E. 定群研究 39、了解某居民肝癌发病的真实水平, 可采用 40、估计某地肝癌的死亡率可采用 (五) 简答题 1、均数、中位数和几何均数的适用范围有何异同? 2、列出离散程度的指标, 说出它们的应用条件。 3、正态分布、标准正态分布与对数正态分布在概念和应用上有何异同? 4、医学参考值范围的涵义是什么? 确定的原则和方法是什么? 5、说出标准差和标准误的联系和区别。 6、简述t分布与u分布的联系与区别。 8、可信区间和正常值范围有何不同。 9、简述第一类错误与第二类错误的区别与联系。 10、说出t检验、u检验的应用条件。 11、列出常用相对数, 并解释其作用。 12、简述应用相对数应注意的问题。 13、四格表资料与配对计数资料的?检验有何不同? 14、行?列表资料?检验应注意什么? 15、四格表资料的U检验和?检验的应用条件有何异同? 16、列出常用统计图, 说出它们的应用条件。 17、简述制作统计表和统计图的基本要求。 18、说出两种变量类型及其含义。试举例说明。 19、实验设计的原则有哪些? 20、简述方差分析的基本思想。 49 2 2 2 (六) 计算分析题 1、为了解大学生每月伙食费的支出情况,在北京某高校随机抽取了300名学生进行调查,得到样本数据如下: 按月伙食费支出额分组(元) 250以下 300~ 350~ 400~ 450~ 500~ 550~ 600以上 合计 人数 10 15 20 110 90 25 20 10 300 计算大学生每月伙食费的算术平均数、中位数;计算大学生每月伙食费的标准差;说明大学生每月伙食费分布的特点。 2、某公司职工收入情况如下: 按收入额分组(元) 4000以下 4000~ 5000~ 6000~ 7000~8000 合计 计算该公司的月收入的算术平均数、中位数; 计算该公司的月收入的标准差; 说明该公司职工月收入分布的特点。 3、某高校过去多次英语考试的成绩表明,男女和学生的平均成绩是相同的,在最近大二进行的一次英语考试中,随机抽取100名学生,其中女生为40人。女生平均成绩为78分,成绩的标准差为11分;男生平均成绩为76分,成绩的标准差为14分。请以95%的置信系数对男生与女生的平均成绩分别进行区间估计,并比较男、女生之间成绩有无差异(要求写出相关步骤及可能的结论,可以不计算结果)。 4、某糖厂用自动包装机装绵白糖,标准重量500克,假设白糖每包重量服从正态分布。某日开工后随机抽查10包的重量如下:494,495,503,506,492,493,498,507,502,490(单位:克)。根据样本数据判断该日自动包装机是否正常?(显著性水平5%)。 50 职工数 2 7 9 7 5 30 5、某公司向航天部门推销一种新电池,供通讯卫星在空中使用。目前所使用的电池的平均寿命为550小时,新电池的寿命只有超过此才可以使用。对新电池抽样100只,测得其平均寿命为565小时,标准差为200小时。试以5%的显著性水平进行假设检验,决定是否订货购买新电池。 6、有一种电子元件,要求其使用寿命不得低于1000小时。已知这种元件的使用寿命服从标准差为100小时的正态分布。现从一批元件中随机抽查了25件,测得平均使用寿命为972小时。 (1)在0.05的显著性水平下,检验这批电子元件是否合格? (2)假如上述样本平均寿命是对50件样品检查的结果,在其他条件不变的情况下,判断这批电子元件是否合格。 7、为了确保出口产品质量,某进出口公司对一批出口挂钩进行了抽样调查。按合同规格这批出口挂钩平均最大承受拉力应大于10000公斤,已知标准差为2000公斤。出口一批不合格的产品会造成较大的损失。 (1)若n=400,α=0.05,写出接受域和拒绝域; (2)若x=10310公斤,是否认为这批是合格的? 8、近几年某地区大学生英语4级考试成绩的均值为73分,方差为22.05。2006年随机抽取了200名学生组成一个样本,样本均值为71.15分,当显著性水平为5%时, (1)2006年学生考试成绩与往年是否处于同一水平? (2)2006年学生考试成绩是否比往年有显著下降?所得结论与上述结论有无不同?这说明什么问题? 9、龙化公司是专门从事防腐工程施工、防腐材料研究、开发、制造的专业化工工程公司。公司承担了西部原油成品油管道腐蚀管的制造工程。原生产线生产的防腐管的防腐层厚度在2.5mm之内。从国外引进一条专用生产线。技术人员对该生产线进行了现场调试。以检验防腐层的厚度是否能够超过原生产线生产标准。测试结果取得如下30个数据: 2.65 2.78 2.7 2.86 2.65 2.77 2.57 2.74 2.71 2.68 2.86 2.74 2.76 2.36 2.56 2.78 2.63 2.76 2. 86 2.62 2.68 2.68 2.78 2.59 2.76 2.67 2.73 2.69 2.76 2.12 在5%的显著水平上能否得出引进生产线所生产的防腐管的防腐层厚度超过2.5mm的结论? 10、对甲、乙两种品牌的手机充电电池充电后使用时间进行调查,各抽取10块电池得到样本数据如下(单位:小时): 若根据以上信息判断甲品牌电池比乙品牌电池的使用时间长,这种判断的P值是多少? 11、泰民是一家专门生产杀灭蟑螂药的高科技公司,其蟑螂杀灭效果在90%左右。泰民系列产品中有一种杀蟑粉剂,对蟑螂起到触杀的作用,是泰民组合杀虫防制方案的关键一环。因此对该产 51 59 61 39 43 63 41 49 40 55 50 50 45 63 52 58 48 57 46 54 38 品质量的检验就成为生产工序的关键环节。最近销售部门反馈:有的老顾客反映药品重量好像比标准重量160克/瓶轻了。质检部门随即对近期杀蟑粉剂的生产情况进行复检。现调出对上月10日、20日、30日产品系统抽样得到的3箱共60瓶粉剂的检测报告,数据如下: 161 160 159 159 160 161 160 161 158 159 159 161 162 157 161 159 162 162 159 158 158 158 157 161 158 160 162 159 159 158 160 162 161 157 158 158 159 160 160 161 160 160 159 158 159 158 163 160 159 160 158 161 160 157 161 160 157 157 159 161 在5%的显著水平上检验样本数据是否支持顾客的怀疑意见? 12、某医药公司宣称其生产的一种新的降压药功效显著,随机抽取了15位高血压患者,并对他们服用该种新药前后的血压进行了测试,得到下列数据: 服药前血120 136 160 98 115 110 180 190 138 128 146 157 123 119 187 压 服药后血118 122 143 99 105 180 175 205 112 136 149 156 104 101 187 压 假定服用该种降压药前后的血压服从正态分布,能否相信医药公司的广告是真实的(显著水平α=0.05)? 13、某企业机构对A、B两个地区居民拥有电脑的情况进行了抽样调查。在A区调查的样本量为80家,其中有电脑的家庭占56家;在B区调查了100家,其中有电脑的家庭占51家。根据这些信息,有人认为A地区居民拥有电脑的比例高于B地区的。这个结论正确吗? 14、一份研究报告认为女性与男性相比,更喜爱看春节晚会。在喜爱看春晚的人中,男性比例不足4成。电视台为了检验这一结论,从某市喜爱看春晚的人群中随机抽取400人进行了调查,其调查结果是:男性146人,女性254人。问当α=0.05时,调查结果是否支持该研究报告的观点? 15、某企业生产工人分为早班和晚班两个班次。上月质量检验的结果是,从早班抽查样品100只,91只合格;从晚班抽查样品150只,128只合格。可否认为早班和晚班的生产质量有显著差异(显著性水平为5%)? 16、设在某国际市场上购买中国生产的景泰蓝金笔的顾客占全部买金笔顾客总数的35%。现在又推销一种新型的景泰蓝金笔,随机抽取800名购买各种金笔的顾客进行调查,其中有320人购买了新式景泰蓝金笔。试在显著性水平为0.10的条件下,检验此种新型金笔是否较原产品有更高的竞争能力。 17、某公司的营销部门的经理希望在广告费及销售额之间建立一个预测模型,从而可以国际公司的广告费的投入对其销售额进行预测。于是他收集了20家公司的年广告费及其销售额资料(单位:万元),见下表: 52 广告费 销售额 120 68.7 100.1 76.6 8.7 3633 2070 1590 1323 811 广告费 0.1 21.5 1.4 5.5 1.7 销售额 711 570 445 433 433 广告费 销售额 广告费 销售额 50 60.8 40 33.3 20 1200 1500 1100 800 900 8.9 9 50 10.9 11.4 800 1000 1500 890 1000 要求:画散点图,以确定广告费及其销售额之间关系的形态;用最小二乘法估计模型的参数; 解释回归系数的经济意义;对回归系数进行检验;预测当某公司的年广告费为48万元时,其销售收入。 18、对某市发动机制造行业进行了抽样调查,在抽样的10个厂家中,其产量和总成本的对应关系如下表所列: 厂家 1 2 3 4 5 6 7 8 9 10 产量(台) 14 9 23 17 10 5 22 13 16 6 总成本(万元) 14 8 22 16 16 6 20 14 20 10 X轴标示产量,Y轴标示总成本,绘制散点图;计算总成本与产量的相关系数;在显著性水平α=0.05下,对相关系数进行显著性检验;计算总成本与产量的回归方程,并解释回归系数b的具体意义。 19、一种新产品推向市场的一定时期(比如说3个月或6个月)以后,顾客听说过这种产品的比率称为知悉率。提高新产品知悉率的主要手段是广告。一项研究对8种新产品的广告开支和知悉率做了调查,数据如下: 消费者知悉率(%) 52 21 10 90 64 广告支出额(万元) 20 18 10 80 60 53 64 56 40 45 37 19 X轴标示广告支出额,Y轴标示消费者知悉率,绘制散点图; 计算广告支出额与消费者知悉率的相关系数; 在显著性水平α=0.05下,对回归系数进行显著性检验; 拟合消费者知悉率与广告支出额的回归方程,并解释回归系数b的具体意义; 若广告支出额增加1万元,消费者知悉率可望增加几个百分点? 20、从某大学全体教师中随机抽取16名教师,了解到他们的平均月收入为2000元,标准差为400元。假定该大学教师的月收入服从正态分布,试以95%的置信水平估计该大学教师的平均月收入。 21、某公司负责人发现开出去的发票有大量笔误,并且断定错误的发票占20%以上。随机抽取400张发票,发现错误的发票有100张,试检验负责人判断的正确性(α=0.05)。 22、在入户推销上有5种方法,某大公司希望比较这5种方法有无显著的效果差异,为此设计了一项试验,从应聘的且无推销经验的人员中随机挑选一部分人,将他们随机地分成5组,每一组用一种推销方法进行培训,培训相同时间后观察他们在一个月内的推销额,数据如下: 组别 1 推销额 20.0 16.8 2 24.9 21.3 3 16.0 20.1 4 17.5 18.2 5 25.2 26.2 26.9 20.2 17.3 22.6 17.9 21.2 30.2 20.9 17.7 29.3 23.9 26. 8 29.9 22. 5 22.0 26. 8 19.1 18. 4 30.4 29. 7 28.2 16.5 20.8 20.7 22.4 假定每一组推销额都服从正态分布,且方差相同,试检验这五种方法的推销额有无差异?(选做) 23、某市场调研公司要确定消费者对5种牌号矿泉水喜好是否相同。他们抽取100个消费者为简单随机样本进行调查,并认为消费者对5种牌号矿泉水的喜好没有区别。试检验调研人员的判断。(选做) 矿泉水牌号 喜欢的人数 A 27 B 16 C 22 D 18 E 17 某市中心血站采集血清标本673例,检出乙肝核心抗体55例,其血型分布如下表。问不同血型 54 的乙肝核心杭体阳性率有否差别? 乙肝核心抗体的阳性率与血型关系 血 型 A B O AB 合计 检测数 221 169 235 48 673 乙肝核心抗体阳性数 阳性率(%) 13 16 23 3 55 5.88 9.47 9.79 6.25 8.17 25、某地测得9名健康人血清白蛋白分别为46、47、51、45、44、39、42、48、43(g/L)。求:①平均白蛋白;②标准差;③变率系数;④标准误;⑤该地健康人血清白蛋白的95%可信区间。 26、某省医院肛肠科测定正常成年人外科学肛管(直肠末段提肛肌至肛缘)长度见下表,其分布呈正态。检验男、女的外科学平均肛管长度有否差别?试制订正常值。 成年男、女的外科学肛管长度(cm) 性 别 例 数 平均数 标准差 男 889 3.94 0.58 女 311 4.30 0.53 26某医师抽样调查了某山区部分健康成年人血红蛋白的含量,结果见表: 某山区部分健康成年人血红蛋白的含量 性别 男 女 例数 400 225 均数 13.45 11.76 标准差 0.71 1.02 标准值 14.02 12.47 就上表资料:(1)有人认为女性血红蛋白的抽样误差大于男性?对否? 为什么? (2)有人对该山区男、女性血红蛋白的平均值含量与标准值比较得: 男:t=16.1,p<0.01,女:t=10.4 p>0.01,请作分析。 27、某营养学博士为研究牛奶有否增加身高作用,把16名儿童,配成8对(每对儿童年龄、性另、身高、体重及父母身高等情况,基本均衡)每对儿童的一个给予正常饮食,另一个正常饮食外每天增加500ml牛奶,隔6个月后测得其身高增加情况见下表。问牛奶有否增加身高的作用? 增喝牛奶下正常进食儿童身高(cm)增加情况比较 儿童对号 1 2 3 4 正常进食儿童身高增加(cm) 4.5 4.6 4.8 4.4 55 增喝牛奶儿童身高增加(cm) 6.5 6.3 6.6 5.9 5 6 7 8 4.7 5.1 4.0 4.6 7.0 6.7 6.5 4.3 28、用两种不同剂量的电离辐射照射小白鼠, 第一种剂量照射25只, 在照射后14天内死亡14只; 第二种剂量照射18只, 同时期内死亡5只。 (1) 绘制分析模式表。 (2) 判断这两种剂量对小白鼠的致死作用是否相同。 29、为了了解某乡钩虫病感染情况,随机抽查南500人,感染100人,女200人,感染80人,若全乡人口为10人,000,问:该乡钩虫病感染率是否有性别差异?若对该乡居民做驱钩虫治疗,至少需要按多少人准备药物? 30.某市解放后白喉预防接种对于人群锡克氏测验反应情况及白喉患病和死亡影响观察 整理某市传染病院(1950~1954年)白喉病例记录,用最后诊断为白喉之确诊病例6480例 (此6480例占1951~1954年报告白喉总病例数的42.6%,及其中死亡22例)按病例记录 上白喉预防接种情况的记载分为未接种,非全程接种,全程接种三组,如列于表5和表6. 表5 1950--1954年某市白喉住院病例按预防接种情况比较 病例 未受接种 非全程接种 全程接种 年份 总计 病例数 % 病例数 % 病例数 % 1950 1248 1220 97.8 22 1.7 6 0.5 1951 1581 1429 90.4 87 5.5 65 4.1 1952 1980 1730 87.4 107 5.4 143 7.2 1953 1346 1153 86.0 132 17.8 10 0.8 1954 289 231 79.9 50 17.3 8 2.8 表6 1950--1954年某市白喉住院病例死亡人数按预防接种情况比较 年份 死亡 未受接种 非全程接种 全程接种 总数 死亡人数 % 死亡人数 % 死亡人数 % 1950 65 63 96.6 2 3.1 0 0 1951 50 42 84.0 4 8.0 4 8.0 1952 35 32 91.4 1 2.9 2 5.7 56 1953 64 40 52.5 23 35.9 1 1.0 1954 10 10 100.0 0 0 0 0 合计 224 87 83.5 30 13.4 7 3.1 结论:“从表5及表6可以看出白喉预防接种不但可以减少发病,也可以减少死亡”. 问题:1)对该文作者提出上述的结论你有和意见? 2)你认为以上资料应如何整理分析,才能得出正确的结果? 31、某地某年各年龄组身高资料如下: 年龄组 人数 均数( cm ) 标准差( cm ) 1-2月 100 56.3 2.1 5-6月 120 66.5 2.2 3-3.5岁 300 96.1 3.1 5-5.5岁 400 107.8 3.3 问: (1) 上述资料是否表明6岁以下男童身高的均数和变异度随年龄增长而增加? (2) 若以上各年龄组的身高均服从正态分布, 估计上述300名3-3.5岁男童身高在95.0-100.0 cm范围内有多少? 并确定3-3.5岁男童身高的正常值。 (3) 估计3-3.5岁男童身高的总体均数可信区间。 (4) 若抽样调查100名某山区5-6月男童身高, 得均数60.2 cm,标准差3.0cm ,山区5-6月男童身高是否与该地5-6月男童身高均数不同? (5) 试将该组资料的均数绘制成相应的统计图。 32.某地某年肿瘤普查资料整理如下表 某地某年肿瘤普查资料 年龄 0? 30? 40? 50? 60? 合计 据上述资料 57 人口数 633000 570000 374000 143000 30250 1750250 肿瘤患者数 19 171 486 574 242 1492 构成比( % ) ( ) ( ) ( ) ( ) ( ) ( ) 患病率( 1/万 ) ( ) ( ) ( ) ( ) ( ) ( ) (1) 填充。 (2) 分析讨论哪个年龄组最易患肿瘤? 哪个年龄组病人最多? 33、为比较槟榔煎剂和阿的平驱绦虫的效果, 对45名绦虫患者进行治疗, 其结果如下, 问两药疗效是否相同。 两药疗效比较 药物 槟榔煎剂 阿的平 合计 治疗人数 27 18 45 有效人数 22 12 34 34、用两种不同剂量的电离辐射照射小白鼠, 第一种剂量照射25只, 在照射后14天内死亡14只; 第二种剂量照射18只, 同时期内死亡5只。 (1) 绘制分析模式表。 (2) 判断这两种剂量对小白鼠的致死作用是否相同。 参考答案 (二)填空 1、设计、收集、 整理 、分析 、设计 2、统计描述、统计推断 3、系统误差 、 随机测量误差 、 抽样误差、 抽样误差 4、分层、系统、单纯、整群 5、正态、偏态 6、均数、标准差 7、几何均数 8、变异系数 9、标准差、均数 10、以均数为中心对称、均数处最高、N (?,?) 11、绝大多数正常人生理生化值、分布类型、正态分布法、百分位数法 12、样本均数 S ?x =S /√?n 13、自由度、越小 、 t?,?=1.96 14、参数估计、假设检验 15、样本统计量数与总体参数的差异由抽样误差引起的概率大小 16、P、相对性 17、正态、方差齐 18、独立样本、正态、方差齐 19、?、?、增大样本量 20、某一部分的增大必然引起其他部分的减少、各部分之和等于1 21、消除内部构成不同对总率的影响、直接法、间接法 22、Sp=√p(1-p)/n ,样本率的离散度 23、实际频数,理论频数,X=?(A-T)/T 24、A-T、自由度 25、实测阳性数、实测阴性数 58 2 2 26、n>40和T?1 、5>T?1 27、b=c、X=?(b-c)/(b+C) 28、标题、标目、线条、数字。 29、顶线、底线,纵标目下线 30、5:7或7:5、底部中间 31、集中趋势、离散趋势 32.所有个体值对总体均数的离散程度 33.可信度 34.三个总体率不同或不全相同 35.相对数 36.不能有1/5以上的格子理论数T<5 或有一格理论数T<1,或合理合并 37.n 足够大和p不太大或不太小 38.总体率估计和假设检验 39.对数、对数正态 40. 标准化率 (三)是非题:1、错 2 、对 3 、错 4、对 5、错 6、对 7、对 8、对 9、错 10、错 (四)单选题 1、B 2、E 3、D 4、B 5、C 6、D 7、C 8、A 9、C 10、C 11、D 12、C 13、D 14、C 15、D 16、B 17、D 18、D 19、E 20、C 21、D 22、E 23、E 24、D 25、C 26、A 27、D 28、E 29、B 30、E 31、E 32、B 33、A 34、E 35、B 36、D 37、B 38、D 39、A 40、B 59 2 2 希腊字母读音表 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 大写 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω 小写 α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ σ τ υ φ χ ψ ω 英文注音 alpha beta gamma delta epsilon zeta eta thetiotkappa lambda mu nu xi omicron pi rho sigma tau upsilon phi chi psi omega 国际音标注音 a:lfbetga:mdelt 中文注音 阿尔法 贝塔 伽马 德尔塔 伊普西龙 截塔 艾塔 ep`silon zateitθitaiotkaplambdmju nju ksi omik`ron pai rou `sigma tau jup`silon fai phai psai o`miga 西塔 约塔 卡帕 兰布达 缪 纽 克西 奥密克戎 派 肉 西格马 套 宇普西龙 佛爱 西 普西 欧米伽 60