第六章 流行病学研究的选题和设计
3. 同一受试对象的重复观察 它保证了观察结果的精度。如血压的测量一般都测3次,取3次的平均值。
由以上可以看出,重复最主要的作用是估计误差,只有在相同研究条件下对同一观测指标进行多次重复测定,才能计算出误差大小;重复的另一作用就是减小抽样误差,多次重复测定的均数或大样本率的误差较小,提高了研究的精确性。
(三) 随机化(randomization)
随机化,就是每一个受试对象都有同等的机会被抽取或分配到不同的实验组和对照组,是对付大量不可控制的非处理因素在各组间分布均匀的一种统计学措施,也是对实验结果进行外推的重要前提,它贯穿于实验设计和实施的全过程中,体现在:
1. 抽样的随机 使每个符合条件的研究对象都有同等的机会被抽取,从而保证所得样本有代表性。常用的随机化抽样方法有单纯随机抽样,系统抽样,分层抽样以及整群抽样,祥见有关统计学书籍。
2. 分组的随机 使每个受试对象被分配到各组的机会相等,是达到组间均衡性的重要手段。随机化的方法很多,如抽签法,掷硬币法,随机数字表或通过计算机产生的伪随机数字进行分组。随机分组的单位既可以是个体也可是群体,前者如实验某种疫苗有无预防作用而开展的小范围人体实验;后者如为了解自来水加氟能否预防龋齿而开展的大范围人群实验。
3. 实验顺序的随机 每个试验个体接受处理先后的机会均等,从而平衡试验顺序对观察指标的影响。
(四) 盲法(blindness)
流行病学研究中的便宜可以来自各方面和各个环节,通过随机化和设立对照消除和控制了很多影响研究结果的非处理因素,但是研究中来自研究对象和研究者的与疗效评价、检测结果判断、数据分析方面的不客观和不公正态度,甚至心理因素也会引入很大的偏倚。那么研究者就进一步采取措施来消除这些偏倚,既让研究对象、研究观察者和数据的分析者部分或全部不知道研究的分组情况,这样就消除了他们因为个人主观倾向的主观偏见带来的偏倚,这样的方法就称为盲法。如果让研究对象不知道研究的分组情况,例如在某一生物制品的现场试验中实验组注射受试的生物制品,对照组注射安慰剂(假设是生理盐水),以消除研究对象带来的偏倚,这种方法称为单盲(single blindness)。如果想进一步消除研究者例如预防效果的评价者带来的偏倚,而让其不知道研究的分组情况就是双盲(double blindness)。研究中还有一类人员负责结果的评判和数据的分析,他们如果带有主官的对研究有利或不利倾向性尤其是对于那些结果不明显的案例的处理,就有可能引入偏倚,影响其评价的客观性。
5
第六章 流行病学研究的选题和设计
所以有必要时也要对他们实行盲法,即为三盲(triple blindness)。盲法应用的不同形式归纳如下表:
表6.1 盲法应用的形式
盲法应用的形式 研究中牵涉的人员 单盲 研究对象 研究的观察者 研究的评价/分析者 研究的设计者 × √ √ √ 双盲 × × √ √ 三盲 × × × √ “×”表示不知道试验的分组情况 “√”表示知道实验的分组情况
三、流行病学研究的精确性与真实性
一般来说,流行病学研究的目的不外乎是揭示研究事件的特征及其与研究因素的联系,并对研究因素的效应作出科学的评价。因此每一种流行病学研究均可视为是一种“测量”。流行病学研究设计的目的就是要保证这种“测量”的准确性,以极小的误差来估计测量目标的参数值,使研究结果较好地反映真实情况。在流行病学研究中,无论是观察性研究还是实验性研究,从研究设计、实施、分析至结果解释、推论的整个过程中,研究的准确性可受到许许多多因素的影响,使研究结果与真实情况存在偏差,有时甚至会得出与实际情况完全相反的结论。造成这种偏差的原因归纳起来有二:一是随机误差(random error),二是系统误差(systematic error),即偏倚。流行病学研究设计的原则与策略,就是如何减少这两类误差,以达到准确的“测量”。减少随机误差以提高测量的精确性(precision),减少偏倚以提高测量的真实性(validity)。
(一)提高研究的精确性
流行病学研究中的精确性与随机误差有关,减少随机误差即可以使研究的精确性提高。随机误差亦称随机变异,其产生的原因有多种,主要来源于对研究对象的选择过程,即抽样过程。这种随机变异被称为抽样误差或抽样变异。抽样误差不仅仅发生于现况研究的抽样调查中,所有的流行病学研究,包括病例对照研究与队列研究等都有可能存在抽样误差。用于研究的研究对象,无论从字面上是否提到“抽样”,都是将研究结果推论到人群的一个样本;即使研究对象包含了一个特定人群的所有个体,其也可被视为更大范围人群的一个样本。因
6
第六章 流行病学研究的选题和设计
此,在统计学上提及的“如果以整个人群而不是其中的一个样本作为研究对象,则不存在抽样误差”的说法与流行病学研究的观点不相一致。因为用于研究的研究对象,实际上总是一个样本。
抽样误差仅是流行病学研究中随机误差的来源之一。其它如研究变量的测量等环节也易产生随机误差,从而影响研究的精确性。提高研究精确性的方法可以通过两种途径:一是增加研究的样本含量;二是提高研究信息获取的效率及研究效率。 1.样本含量的估计
增加研究的样本含量是减少抽样误差、提高研究精确性的最基本的方法。但是样本过大可导致人力、物力、时间和费用的增加,提高研究成本。在实际工作中我们通常根据研究的目的与需要确定适宜的样本大小,并通过合理的抽样,使样本的特征能够代表目标人群,即可以做到通过合适的样本量来提高研究的精确性。具体的样本量计算方法参考本章第三节讨论的内容、本书中的各具体研究方法章节或其他专业书籍。 2.研究效率
(1)样本构成:样本的构成与研究效率密切相关。例如一项研究样本为100,000人的随访研究,研究的目的是分析每天服用小剂量的阿斯匹林(30-50mg/日)是否可降低缺血性心脏病的死亡率及降低的程度。表面上看,如此大样本量的研究,似乎精确性很高。但是如果在这些研究对象中,暴露于研究因素即每天服用阿斯匹林者仅有100人,在这种情况下,尽管有99,900人作为比较对象,自100个暴露者所获得的信息,可能很难全面评价阿斯匹林的效应,达到预期的研究目的。假如在这100,000人中,暴露于研究因素者与未暴露者各为50,000人,暴露者与对照者的比例为1:1,但是如果研究对象的年龄均为30-39岁,该研究的效率也很低。因为虽然暴露者与非暴露者的理想构成可以提高研究的精确性,但是由于该年龄组人群心血管疾病死亡率很低,自该人群所获得的发病和死亡的信息不足以评估研究因素的效应,因此亦很难达到预期的研究目的。即便研究对象总的年龄构成符合要求,如果暴露组与非暴露组年龄分布不均,如暴露组年龄为40-49岁,对照组年龄均≥50岁,也会严重影响研究结果。当然其影响程度取决于在数据分析时,如何处理年龄这一混杂因子。由此可见不仅是样本含量,研究设计的许多方面均可影响研究效率,从而影响研究的精确性。这些影响因素包括研究对象暴露者的比例、已患病或将要患病者的比例,以及在分析中必须考虑控制的一些重要变量的分布等。
(2)分层设计:在许多流行病学研究中,常常应用分层技术,分层有时也会影响研究效率。例如在一项流行病学研究中,样本大小适宜,研究对象暴露于研究因素者与未暴露者
7
第六章 流行病学研究的选题和设计
的比例适宜。如果采用分层技术,很可能会造成各层中暴露者与非暴露者的构成比例极不一致的情况。有的层内是较多的暴露者与较少的对照比较,有的层内则是较多的对照与较少的暴露者比较,甚至在有的层内的格子中会出现零的情况。在这种情况下研究效率可受到严重影响,降低研究的精确性。用于分层的变量越多,这种现象越容易出现,即使是大样本的研究也难免产生这一问题。
研究中使用分层技术时,当预期要分的层数及观察组的研究对象固定时,可用增加对照样本含量的方法来提高研究效率。如果预期的层间暴露与非暴露者的比例或效应值变异很大,非暴露人群又易获得,研究对象中暴露者与非暴露者的比例可增至1:10或更大,从而保证研究效率。例如,当研究职业性肿瘤时,某职业暴露的人群可能较少,而且年龄、性别等人口学特征有一定的特殊性,根据暴露水平进行分层分析时,如果每层的人数较少,为提高统计效率可以适当地扩大对照组即非暴露组的人数。如此可使方差减小,使在同一?标准下获得较小的?值,从而提高把握度。值得指出的是,虽然理论上这种方法可以提高统计效率,但是提高的程度往往有限。而且,统计效率能否真正提高也因研究因素的性质及分布的不同而异。
保证分层研究效率的另一方法是,在选择对照时通过配比技术,使研究对象在各层间暴露与非暴露于研究因素者的比例达到均衡,即使两组中分层变量的分布一致,从而提高研究的精确性。配比一般被认为是一种控制混杂的方法,在这种情况下,配比实质上也是提高研究效率的手段之一。
(3)研究效率的衡量:流行病学研究的研究效率可以用两种尺度予以衡量。一是将研究中所获得的信息总量与样本量(或观察人数)相比较;另一种是将研究中所获得的信息总量与所需的成本相比较。如上述若在研究设计时采用配比技术,可以增加信息获得量、提高研究效率,但配比必然会带来研究成本的增加。研究效率问题最好通过将所获得的信息与研究成本相比较,而不是与研究对象的数量比较来衡量。因为即使是出于同一研究目的,选择不同的研究对象,所获得的信息量与成本往往是不可比的。例如,在回顾性队列研究中,常应用人群资料作比较,这种资料容易获得,获得这样的资料比自暴露队列获得信息的费用要低很多。在病例对照研究中,如果研究疾病是一种罕见病,病例数很少,获得病例的花费大,而对照可能很容易获得,在这种情况下通常是通过增加对照组研究对象数量的策略来获得较多的信息,而所需费用可能较少。但是应该说明的是,在这种情况下,并非随着对照数量的增加信息的获得量也会成比例地增加。
8