临床实验室如何确定和建立生物参考区间
(核准指南――第二版)
1 内容简介
此指南是专为指导临床诊断实验室、诊断仪器试剂制造商和临床检验工作者在定量实验检测中确定参考值和参考区间而制定的。它包括在临床医学实验室中建立可靠的参考区间所用的方法步骤和推荐程序。而该推荐程序的主要内容是如何用最简便和最务实的方法去建立一个能保证足够可靠性和实用性的参考区间的草案。此文献不可能每一种情形都面面俱到,所以有些内容需要通过指南外来充实。但在特定的区域内,额外的步骤或努力可以提高参考区间的可信度和精确度。目前的现状是,临床实验室科研人员和仪器试剂制造商缺乏统一的收集数据及操作方法去建立参考区间,故小组委员会希望此文献能为建立可靠的参考区间提供最基本的、统一的实验草案,并为进一步的研究夯实基础。
该程序指南的关键在于决定“相对健康” 群体参考值或参考区间时所选择的样品组是否来源于健康良好的人群,这也是此文献的谈论的重点。当然,对于其他类型诸如生理或病理情况下的参考值的建立,也应该采用相似的方法。此程序概要适用于任何类型的参考区间的确定,因为它充分考虑了合适的参考个体的选择及各种分析方法影响因素等情况。然而,这份文献没有专门地谈到怎样建立诊断域值(如危急值或各种医学决定值)。这些值的决定方法各异,部分还经常要在特定医学条件下由诊断方法的敏感性和特异性来决定。
不同情况下的参考值研究的各种需求本指南也将涉及,包括:
? 新分析物的测量?
? 用新的或不同的分析方法测量事先已明确知道的分析物或已标准化测定的生
理学的数据和参考值。?
? 用相同或者有可比性的方法去测量同一分析物,并利用其他实验室或试剂生产
商提供的参考值作比较研究(参考值的调用)。
被称为“参考值调用”的最后一项议题是比较复杂的。因为今后所有的临床诊断实验室将会不断地遇到调用参考值的验证和随后的采用它这个问题,而试剂生产商和其他实验室所提供的参考值是不能直接应用的。这一问题的解决方法至今仍然不是非常严格。因此本指南也讨论了有关该议题的被普遍推荐的3种方法。
无论你的诊断实验室规模大小,无论你是何种试剂生产商,倘若你想通过一项参考值
1
研究来建立参考区间,你就必须遵循此文献提供的特定的指导方针和程序。该文献包括了建立足够的和适当的决定参考区间的最低标准。如果实验室规模太小且缺乏必要的资源去执行这一标准,按照稍后在文件中讨论的该议题程序,那么唯一可接受的替代方法就是,采用相同的或可比较的分析系统,对已经合适地确定的参考区间藉着调用的方法进行参考区间的验证后使用。
本文献从对某些术语定义的解释着手,因为术语对参考值的讨论是极其重要的。所采用的术语均为国际临床化学家联合会(IFCC)的EPTRV分会提出建议,经过仔细探究后旨在形成更有系统和更明确的理论阐述。此指南内容包括如何建立参考区间并且叙述了种种要素的特性,诸如用来实验的参考对象的选择程序,考虑分析前和分析中影响因素的重要性,估计有效参考区间的计算方法和要求,参考值的调用等等涉及这一议题的问题均将讨论到。有关参考区间的描述和应用问题也有涉及,最后有一简单章节谈到如何检测一批重要的但并非主要的参考值话题。
2 国际单位的使用(SI 单位)
虽然国家临床实验标准委员会(NCCLS)通常认可使用国际单位(SI),但这些不能总是与国际理论与应用化学联合会(IUPAC)和国际临床化学家联合会(IFCC)所推荐的用于报告临床实验室检测结果单位一致。当然,NCCLS文件中的使用单位也包括IUPAC/ IFCC通常推荐的单位如体积单位 (L) 和物质 (分子的) 浓度(mol/L)。
3 定义
3.1 IFCC/ICSH 定义
下列术语是关于参考值主题相对明确的描述和讨论。这一系列术语的定义是经IFCC中的EPTRV 分会及国际血液学标准化委员会(ICSH)提出并得到世界卫生组织 (WHO)和全世界的其他组织的支持和认同。这些定义代表着正在形成的一种全球认可的术语。有关这些术语的讨论和清楚描述将在3.2段中陈述。
? 参考个体, n- : 一个被选择用来检测已经定义明确的标准基础的人体。 注意:确定该个体的健康状态是非常重要的。
? 参考群体, n-:所有的参考个体组成的团体。注意: a)参考群体通常拥有不知具体成员个数,因此它是一个假设的实体;参考群体可能只有一个成员 (例如,一个人可以作为他(她)自己本身或另一个人的参考体);b) 这些 “受试验者特异性”的参考区间在这指引中没陈述。
? 参考样品组,n- :被选择用来代表参考群体的一组含足够数量的人群。
2
? 参考值, n-:通过观测或者测量某种特殊类型一定数量的参考个体而获得的值或测量结果。注意: 参考值必须从一个参考样品组中得出。
? 参考分布, n-:参考值的分布范围。 注意: 假设认为那参考群体的参考值能通过抽取参考样品组来测试出并使用适当的统计方法计算出参考值的分布范围。假定的参考群体分布这个参数,可以通过对参考样品组的分布和使用适当的统计方法来评估。 ? 参考限, n-:一个以描述为目的的并取自参考分布范围的值。注意: 常见的做法是确定一个参考限以便描述参考值级数。假如所有参考值均大于或等于该值,它就是参考下限;而当所有参考值均小于或等于该值时,它就是参考上限。参考限是用来描述参考值和区别各种不同其他类型的决定水平。
? 参考区间, n- :参考区间就是介于参考上限和参考下限之间的值,当然也包括参考上限和参考下限值。 注意: 它标明了参考值的分布区间是从参考下限到参考上限之间【举例来说:快速血糖的参考区间是 65~110 mg/dL(即3.6~6.1 mmol/L)】。在某些情形中,有时候通常只有一个参考上限\有实际意义,即其参考区间被定义为0 ~x。 ? 观测值(患者检测结果), n- :通过观测或者测量一个受试者(如患者)特殊类型样本量而获得的值。临床可用该值来与参考值,参考分布范围,参考限或参考区间相比较。 上述八个术语之间的关系可用 插图1 描述。
3.2 术语鉴别要点
出自不同的目的,参考值可以是相对健康良好状态人群的,也可以是有关其他生理状况下或病理情况下的。无论什么情况,参考值就是允许我们将观测到的数据去和有关联的取自被确定好的测试人群的参考数据来比较。这个比较可以成为有关观测值的含义和受试者状态的部份决策程序。
参考值是在参考样品组中所有参考个体身上观测或测量到的全部数值。参考区间通常是介于在确定的百分位数的参考限之间。即:参考区间将会涉及到在参考样品组或为预测的参考群体中用特定百分比定义 (如95%)而得到的观测区间值的集合。
3
插图1 各术语之间的关系
(1) 参考个体
(符合抽样条件的个体) ?
(2) 参考群体
(全部参考个体组成了参考群体)
?
(3) 参考样品组
(从参考群体中选择出参考个体组成参考样品组)
?
(4) 参考值
(8) 观测值 (参考样品组中每个样本的观测值) (即检测结果,可与右边4个值比较)
(5) 参考分布
(全部参考值分布所占的范围)
(6) 参考限
(参考限就是参考值中的最大值和最小值)
?
(7) 参考区间
【参考区间就是(含)参考上限和参考下限之间的所有值】
4 获得参考值和建立参考区间的规程概要
4.1 新的分析物或新的分析方法
相对健康群体给定分析物的参考值产生和随后进行的参考区间的估算必须遵循拟定好的标准。具体可依照下列操作程序。当建立一个新分析物的参考值,或用一个新的方法去分析建立已标准检测过的分析物的参考值时,必须按照该程序大纲执行。
(1) 从医学科学出发,编写一份恰当的生物学变异和分析干扰列表文献 (假如是一个完全新的分析物时,文献可能没有用, 这就需要对这些物质由实验室进行新的探究)。
(2) 建立选择/排除和分组标准,并设计一个适当的调查表。该调查表能在潜在的参考
4
个体中揭示这些标准。
(3)被用来作参考区间研究的参与者有知情同意权,完成一份适当的书面同意表格并让所有参考个体完成调查表。
(4) 基于调查表调查结果和其他合适的健康评估结果将潜在的参考个体进行分类。 (5) 依排除标准或其它评估结果将暗示处于不良健康状态的个体从参考样品组中排除。 (6) 从期望的可信限角度考虑,确定一个合适的参考个体样本数。
(7) 准备为给定分析物测量进行样品收集时选择个体,该活动须与为病人进行实际常规检测活动一致。
(8) 收集、处理各种生物学样品,须与为病人进行实际常规检测活动的样本收集、处理方式方法一致。
(9) 在明确规定的状态下(此状态须与为病人进行实际常规检测活动状态一致)依照各自分析方法对样品进行分析,收集分析结果得到的参考值。
(10) 审核获得的参考值数据,并利用直方图去评估数据的分布。 (11) 识别并剔除可能的错误数据和离群值。
(12) 整理分析参考值。例如,选择一种判断和估计方法,估算参考限和参考区间 (假如合适,可对参考区间进行分级)。
(13) 记录以上所有步骤和程序,并归档保存。
上述操作程序是与通过推测的途径(见5.3 )来选择参考个体和确定参考值方式一致的。实际操作过程中, 当检查群体是期望很健康的潜在参考个体的时候, 完成调查表和收集样品常是同步进行。而一旦发现有排除情形时,该个体的分析测量应该被取消。
有时候采用归纳的方法可能是有用甚至是必需品的。这一种方式适用于已经从医学检查或其他大量组合人群中测量收集的大量数据来确定标准值。归纳方法, 同样必须考虑确定参考值时应包含某些特定的人群及其代表性。总之,归纳法只有在测量完成之后才能得到。
4.2 预先已检测过的分析物
在某种合适的情形下,实验室可以采用迁移法确定参考区间,没有必要进行大规模新的全程研究。用来迁移的参考区间是由其他实验室或某种试剂生产商通过往日研究建立的,至今仍有效的参考值。但是必须注意到,只有待测试的群体和整个方法学(包括从测试个体的准备到分析测量)均是相同的或具有可比性,迁移才能被认可和接受。不同检测系统方法学可比性验证技术可参考NCCLS 文献中的EP9文件(利用患者样本进行方法学比较和偏倚评估)。正如在第8节所描述的那样,迁移来的参考区间,必须采用一个简便的研究来
5
验证它的有效性。
5 参考个体的选择
5.1 介绍
这一节的内容是就如何从一个参考群体中选择参考个体来组成参考样品组提供指导和建议。本指南第3节已经为上述有下划线的术语做出定义,所以主要是讨论两种不同的样品抽取技术(推测法和归纳法),同时也将探讨排除及分组定义并给出一个样品调查表。
如第1节所讨论, 本指南是一份旨在为确定“相对健康”参考值的程序。健康的确是一种相对的状态,目前缺乏一种放之四海而皆准的健康定义。确定人处于什么状态才被视为是健康的,就成为所有研究的首要问题。而且在选择参考个体时的第一步,就是要建立一个标准将非健康者排除在纳入的参考样品之外。当然,每个机构或研究者可能对健康的标准有不同的理解,但这些标准应该在进行分析前被定义好。表明一个候选参考个体是健康良好的,可能要进行多种检查,诸如病史调查和体格检查和/或某些实验室检测。作为参考值研究的健康标准应该描述清楚并记录保存,以便别人能对你纳入的参考样品所处的健康状态进行评估。至少对每个参考个体的健康状态应该维持一个评估调查表。
5.2 排除和分组
排除标准应该描述详细,必须将候选参考个体中假如出现符合排除标准的个体,排除在纳入的参考样本之外。 你可在本节的表2中发现一些潜在的排除标准的例子。当选择参考个体作为参考样品来确定有关健康状态下的参考区间时,表1中的某些条件必须受到严格控制。表1 所列并不是详尽无遗,应该将它在设计排除标准时作为我们启发思考问题的线索。而且不是所有的参考值研究都会有相同的排除标准。 表1 可能的排除标准
经常喝酒 献血者 血压不正常 吸毒 正在服用医生开方的药物 正在服用自购药物 某些环境因素 禁食或者非禁食 遗传易感因素 正在住院治疗或最近住过院 近期患病 哺乳期 肥胖 特殊职业 口服避孕剂 怀孕 近期手术 吸烟 近期接受输血 滥用维生素 6
分组标准具有从所有挑选出来的参考个体按照各自有意义的分类法将参考样品进行分组的特性。 最常用的分组标准是年龄和性别。除两者之外,其它因素在表2中列出。同样,表2所列不是详尽无遗,应该将它在设计分组标准时作为启发思考问题的线索。
表2 可能的分组因素
年龄 血型 昼夜变化 饮食习惯 血统背景 运动 禁食或者非禁食 生存地区 抽取样品时体位 种族 性别 月经周期的不同阶段 怀孕期间的各阶段 抽取样品时的时间段 吸烟
某项研究中的排除标准可能用来作为另一研究中的分组标准。最明显的例子就是怀孕因素。 当某实验室将普通人群作为研究对象时,也许就要把怀孕妇女排除在他们的参考个体之外。然而,假如是一个专门进行产科学研究的实验室,它可能就要选择怀孕妇女将其按妊娠期每三个月的分组方法分组研究。
设计良好的调查表就是执行排除和分组标准的最好方法之一。这些表格应该简便而非命令式。问题最好常用“是”或者“不是”来回答,简单且不需要解释。调查表可以结合一些简单的检查,如测量研究对象的血压,身高和体重等, 也可以结合基本的咨询,如适当的问询他们是如何考虑他们自己处在健康良好状态的,问询不能太专业化,应选用些常识问题评估研究对象。在5.4节中就有一个样品调查表的格式。
5.3 参考个体的选择
确定相对健康人群参考区间的参考个体没有必要一定是年轻成人,他们可以是非常类似于患者群的人群正在接受医学评估。事实上,小组委员会反对一般意义上的年轻又健康的成年人这种明确的“金标准”的观念,并建议有关年龄因素的参考区间,许多情况下可以更具有临床应用性。某些由于年龄的变化导致实验室检测结果改变,并不能用来评价健康状态。例如老年患者中的胆固醇或内分泌变化。参考个体不应该是住院患者或者临床病人,除非绝对需要。诸如可能是必需的小儿科或老年人的研究。
7
术语“推测”和“归纳”是用来描述从参考群体中选择参考个体的二种常用方法的。 推测采样法需要在选择参考个体前已经很好的建立排除和分组标准。 这种方法最适用于已经有较好的研究基础并建立了完善的实验室程序的检测。方法学建立好之后, 实验室就必须着手该检测方法潜在的生物学变异来源的全面的已有文献查找。搜寻文献获得的数据为我们进一步研究所需制定的排除和分组标准奠定了基础。这些标准确定之后, 结合问询工作我们就能形成格局特色的调查表。该调查表是用来将不符合标准的部分人排除在抽取样品的人群之外,并选择不同的人群形成不同的组别。上述所有步骤完成之后才能进行血样品的采集。用来分析的参考个体数必须是在统计学意义上有效的足够的数量(见7.1节)。
与推测法相比,归纳法的操作程序刚好相反。归纳法是在抽取样品并分析测试之后进行排除和分组的。归纳法采样非常适合于一个全新的或者他人较少研究的实验室程序,而且该程序文献报道甚少。因为起初对如何分组的因素还不完全明确,所以此法的调查表设计可能需要更加全面和彻底的考虑到所有影响因素。
5.4 样品调查表
本指南列出了一份调查表图样(见插图2)。为保护参考个体的隐私,调查表涉及的信息和测试结果是保密的,这一点非常重要。有一些变化因素如姓名、住址和联系电话要充分考虑到,这样就可以让我们万一发现某参考个体有些异常趋势时更容易的联系上他(她)们。毫无疑问,有了肯定的医学诊断, 我们有义务和责任通知其本人或他(她)的医生。在这种情况下,实验室应该建立合适的医学评估和保密性告知机制。但有时采用匿名的调查,也许是一种更好地获得某个必需数据的手段,不过这时就要用上一个编号系统(注意:作为匿名的参考个体有与实验室保持联系的责任,以方便实验室如果测试有任何问题好决定是否需要追踪)。当然匿名的调查会有更多的难以预料的棘手问题。尤其是在采用推测法进行采样研究的情况下,另一种可能的变化还须引起注意,那就是要通过排除和分组的方法,将明确会影响研究的疾病状态等问题进行归类。被设计关于被知道影响的疾病州的资讯疑问在调查之下的测试应该被包括在内。
实验室应及时地获得每个参考个体的书面知情同意书。该同意书应该清楚地表达实验室全体人员均有权获得样品,并有权使用有关的实验室检测数据和调查表信息来确定参考区间。通常是调查表和知情同意同时进行。调查表、知情同意书和此研究本身的性质等,必须经过本机构内部的学术委员会或伦理委员会审查。
6 分析前和分析中的影响因素
从参考群体中获得的分析结果,一定要反映所有的能影响测验结果的分析前和分析中
8
的变量。因此,所有的分析前影响因素,包括被测试者的准备,样品采集和处理,分析的方法和仪器操作等条件必须认真进行规定,而且保证不管是在为病人服务还是研究参考个体时均同等实施。
在控制分析前因素时,有一点很重要。那就是必须将会影响临床做出决策的因素减少到最小。因此对于某个特定的分析物来讲,应该在不同情况下建立各组别的参考区间 (举例来说,参考区间应明确是卧床住院病人还是能走动的门诊病人;是早晨收集的标本还是下午采集的标本等)。这些许多分析前的情形就为我们分组提供了依据,像5.2节描述那样,不同的情形时需要确定不同的参考区间。当然如果实验室和临床医师能控制好分析前的某些情形,那么这些不同情况下的参考区间就无需建立。但是,在某种紧急的情况下的样品测试,事先确定的标准化情况可能根本不适用。因此,重要的是必须掌握当检测样本偏离标准化检测条件时,结果如何合理地解释等技巧。
一般来说,分析前的影响因素有两种,即生物学因素和方法学因素。生物学因素又包括代谢性和血液动力学原因。必须考虑到细胞潜在的破坏过程(从体育锻炼到静脉穿刺的)。受试者服用药物引起诱导酶的产生等情况应该排除。分析前方法学因素涉及到样品的收集和处理。其中应考虑的内容有标本收集技术,是否添加抗凝剂或促凝剂和各种血样收集管的采血次序等等。在评估分析前影响因素时, IFCC提及的检查表和本指南中的表3、表4可以为我们提供非常有帮助的指导。
测量同样的分析物,采用不同的方法,不同的仪器或不同的检测系统,均需要采取必要的测试程序,来验证由于方法、仪器或检测系统的差异能否让检测结果具有可比性。如果替代的方法或检测系统经验证不能够提供可比性的结果(见8.1节,参考区间的迁移和 NCCLS的EP9文件―利用患者样本进行方法学比较和偏倚评估),那么就应该建立不同方法、不同仪器、不同检测系统的参考区间,尤其是那些结果用数据来表示的、临床意义很重要值。 插图2 样本调查表
实验室承诺:所有信息将会严格保密并仅供疾病诊断使用。 受试者编号: 样本编号: 姓名: 联系电话: 家庭住址: 年龄: 性别: (男) (女) 民族: 职业: 身高: 体重: 家庭医生姓名: 您认为您现在健康良好吗? (是) (否) 您经常锻炼身体吗? (是) (否) 假如是,一周锻炼多少小时? ; 活动量多大? (轻) 1 2 3 4 5 6 7 8 9 10 (重) 9
最近您有过不舒服吗? (是) (否) 假如有过,请问什么时候? ; 由于什么原因? 您服用过任何医生开方的药品吗? (是) (否) 假如服过,是什么药? 您有过高血压吗? (是) (否) 您有进行过维生素类药品的服用吗? (是) (否) 假如服过,是什么维生素? 您有在工作中接触过有害化学物品吗? (是) (否) 假如有,是什么物品? 您有吸过烟吗? (是) (否) 假如有,是从什么时候开始的? ; 一天多少支? 您有特别的饮食习惯吗? (是) (否) 假如有,请描述 您有喝含酒精的饮料习惯吗? (是) (否) 假如有,是什么饮料? ; 一天多少量? 您现在是否仍在看医生? (是) (否) 假如是,为什么 您最近在医院住过院吗? (是) (否) 假如是,为什么 ; 什么时候? 您家里有谁有遗传病吗? (是) (否) 假如有,请描述 您最近有用过像阿司匹林等镇痛药吗? (是) (否) 假如是,是什么药 ; 什么时候服过? 您最近有用过感冒药或抗过敏药吗? (是) (否) 假如是,是什么药 ; 什么时候服过? 您最近有用过制酸药或胃痛药吗? (是) (否) 假如是,是什么药 ; 什么时候服过? 您是否用过节食药吗? (是) (否) 以下仅咨询女性: 您现在仍有月经吗? (是) (否) 假如有,最后一次月经时间? 假如没有,您是否在用激素替代治疗? (是) (否) 您现在仍在哺乳吗? (是) (否) 您现在怀孕了吗? (是) (否) 假如是,待产期是什么时候? 您有使用口服或其他方法避孕吗? (是) (否) 10
6.1 受试者采样前准备
如第5节所描述, 参考个体的选择必须严格许多条件。受试者不充分或偏离标准状态下的准备可能会导致结果的不准确或数据的偏离。标准状态的设定是根据生物学变异对分析物的影响程度来定的。表3和表4归纳了必须引起注意的,有关受试者采样前准备的几种重要因素。 表3 重要因素一览表
生物学因素 代谢性的 血液动力学的 酶的诱导 细胞损伤 方法学因素 样本的采集 样本的运输 样本的处理 变异性起源及其标准化 特异性因素 (仰卧位vs直立位) 多种因素(见表2) 采样前进食将会影响多数实验室结果, 这种影响既有直接的 (如改变分析物浓度) 也有间接的(脂质成分的干扰) 。相反地,长时间的禁食也将导致实验结果的改变。日常饮食中有些食物也会使多数分析物受到影响,像咖啡因、乙醇、烟草和维生素C等。因此,在评估病人或受试者的准备方案时,一定要考虑是否进食过上述或别的其他食物。
运动和采样过程中的体位均能改变实验结果。就像上节叙述的那样,当我们比较住院病人和门诊病人检测结果时, 发现其体位的变化对结果影响非常大,故经常要为某些分析物建立几种的参考区间。另外,还有一些采样前能影响分析物浓度的因素必须加以考虑,如分析物生理周期性的波动, 季节性的影响和种族背景等。但上述诸多因素均能够通过适当的排除标准得到消除。 图表4. 分析前的影响因素
受试者的准备 事先的禁食 禁食vs非禁食 药物介入戒酒 药物养生法 取样时间和生物节律相关 体育锻炼 采集前休息间隔 紧张 样本的采集 采样时的环境 时间 体位 样本类型 采样部位 血流变 采样设备 采样技术 样本的处理 样本运输 样本凝固状态 血清或血浆的分离 样本储存 准备样本分析过程 6.2 样品类型和样本的收集、处理及储存
实验室应有一本指导人们如何进行样本收集、处理和储存的手册,以便当医师解读病人检测结果的时候医生能适当地利用参考区间。实验室还应特别指定不同的试管来收集血清样品、血浆样品或者全血样品(参见 NCCLS 文件 H3-静脉血样品的收集程序;H4-外周血的样品收集程序和装置;H11-动脉血样品的收集程序;H21-抗凝血的收集、运输和处
11
理及抗凝方法)。
还应考虑到样品是否应该是维持在真空状态(例如钙离子的检测)。对用来收集液体的真空管和注射器的类型的使用理解非常重要。分离血清或血浆的方式管和硅化过的注射器能干扰某些测试,甚至可能导致错误的结果。应尽快将样本中的红血球和其他细胞的碎片分离出来。实验室工作人员应该慎重地考虑某些问题,当采样条件偏离标准草案后出现潜在干扰效应等问题时,实验室工作人员应从已报道的文献中寻找解决方法。
6.2.1 血液
如果我们选择的是血样本,那么需要的是动脉血,还是静脉血, 抑或是毛细血管血;还有样品是否需要抗凝,假如要抗凝,可以选用何种抗凝剂,这些我们都必须事先做出规定。另外,还必须描述清楚标准化的样品是采自静脉血还是外周血 (参见 NCCLS 文件 H3-静脉血样品的收集程序;H4-外周血的样品收集程序和装置) 。
6.2.2 排泄物和分泌物
如果采集的样品是来自血液之外的其他液体, 同样必须制定一个指南来指导这些液体的收集、运输和处理操作,尽管这些操作通常不在实验室的控制之下。这些液体包括尿液 (参见 NCCLS 文件 GP16- 尿液样本的收集、运输和防腐及常规分析),脑脊液,胸水, 心包液, 腹水,关节液和羊水和唾液。有时,我们只需在抽取血样时同时收集即可, 但在许多时候,这些液体更合适的收集方式是在规定时间内。就像血样本采集时关键问题在于使用合适的保存剂和抗凝剂,而在24h的尿液收集时, 尿液收集是否完全公认的有效方法是检测尿液中肌酐水平来确定。
6.2.3 温度
收集和处理某些样品时可能需在特定的温度下进行(如37℃,室温或冰冻)。另外, 某些样品(或分析物)的保存将会需要规定在特殊的温度下储存,或者可能要在指定的温度 (-20 C 或 -70 C ) 冰冻保存。实验室必须创造条件并严格保证它们的储存温度需要。一般情况下,样品收集之后均应该及时处理加工。处理加工过程是指在特定的温度下将血清或血浆与凝块和红血球尽可能快地分离(参见NCCLS 文件H18-血样本的处理和加工程序)。
6.3 分析方法性能
实验室提供的数据的有效性是至关重要的。因此样品分析的方法必须阐述清楚,描述的内容包括方法的不准确度、不精密度, 最低检测限,线性范围、回收率和影响因素。
其他要求考虑的影响分析性能因素有使用的设备或仪器,试剂(包括蒸馏水), 定标液和计算方法。如果相同分析物不断进行重复检测的话,建立的参考区间必须考虑包含批间
o
o
12
技术人员间、仪器之间的变异。以上所有因素应在分析系统中描述清楚。
分析检测所获得的数据的可靠性非常重要。 因为方法学的不精密度和不准确性将决定它的诊断效用。因此,无论是在建立参考区间过程,还是在同样形式下进行患者样本检测中均必须使用日常质控物。这不仅可以监控分析的整个操作过程,也能确保长期检测结果的一致性(参见NCCLS 文件 C24-定量检测的统计学质量控制: 准则和定义)。通过连续几天的样本分析所获得的数据才是理想的数据,因为该值能代表各分析批的平均变异值。除此之外,分析物中自然出现的干扰组份的评价也极其重要。
7.参考值分析
本指南的参考区间指的是两个数(含这两个数)之间,即最高限和最低限的之间的全部数组成的区间,从参考人群中抽出来的个体检测值可以用一个特定的百分比(通常 是95%)来评估,就是说这些检测值有95%要落在这个区间内。对于大部分被分析物而言,低于最低限和高于最高限的值均被分别认为分布在第 2.5 和第 97.5个百分位点之外。有些情况是只有一个参考限有意义,通常是高限,即第97.5个百分位数。
决定这些参考限的二个常用的统计方法是采用非参数和参数程序。这些程序的整个细节部份均在由EPTRV的 Solberg 编写的已出版的文件5 中描述。非参数的方法不需要利用特别的数学表格来评估被观测参考值的可能性分布。而实际应用中的有参数方法,假定的参考观测值, 或一些用数学转化而来的那些值,是遵循高斯(即“正态”)分布曲线的。因为多数分析物的参考值不遵循高斯排列,故使用参数方法时需要将这些参考值转换成一些其他的度量单位,即将他们“正态化”。当然应根据需要选择最相配的转换形式(如对数形式,幂形式,或一些其他的功能的原始刻度)。然后在这新的刻度上检验参考值是否真正遵照高斯分布。这要涉及一些对应的综合统计理论和相关的计算机程序。有关这些内容的详细讨论可参阅EPTRV 出版文献附录B和C。
非参数的方法就要简单得多,只要将参考数据按从小到大逐渐增加的等级排列好。此外,可靠的参考区间的建立首要考虑的问题是,选择合适的参考受试者,测试的数量应充足,防范来源于分析前的错误,不用统计学的方法从观测数据中评估参考区间。因此,非参数的方法受到推荐,虽然一个实验室如果需要的话,使用参数方法时统计学和计算机技术的应用应该是得心应手的。在本指南7.4节中讨论了采用非参数方法,为二个分析物(血清钙和
丙氨酸转氨酶)评估参考区间的内容。
7.1 参考值的最小数量
使用非参数的方法,区分两种分布的百分位数(即P%)之间是不可能的,除非至少已经
13
获得的观测例数为n=(100/P)-1。理由是,一个非参数的方法是基于独自的观测值的大小等级排列而不考虑他们的测量值。举例来说,如果随机地从某群体中观测到某样本的9个观测值,当这九个观测值按大小排好次序后,只能获得九个百分位数的估计。最小的观测值是非参数方法估计的人群中第10个百分位数;最大的观测值是非参数方法估计的人群中第90个百分位数。因此,正如上述公式所描述,有九位观测值的样品【9=(100/P)-1,P=10.0】时,9就代表着需要最小的样本数,方能获得性质不同的非参数方法的估计十分位数,换句话说,规定为人群的百分位数应是10%才能分别彼此。
同样地, 从第5个百分位中去评价第 2.5个百分位, 或从第 97.5百分位中去评价第 95个百分位 (即 P=2.5)时, 最少的检测数应该是39 。采用非参数方法估计,最小的样品观测值会是在人群中的第 2.5个百分位, 而最大的样品观测值会是在人群中的第 97.5个百分位。
为了得到一个非参数法的 95% 参考区间而完全仰赖极端观测值,无疑是不受欢迎的。 这些可能是变化了的或者说是不能代表人群的真实百分位值。 Reed等人建议,一个人要进行参考值研究,最小的可靠观测量是120 。这样也就有利于让每个参考限均被90% 的可信限非参数地估算 (参见 7.5 节) 。用同样百分数去评估95%可信限的参考限,需要 153个 参考值;去评估99%可信限的参考限,需要 198个参考值; Linnet等建议对于严重偏态分布的结果,研究数量可以高达700 。当然,小组委员会认为实际工作中的标准,120例是推荐的最小量。
这个数当然是在假设没有观测者从参考群体组中被剔除的情况下规定的(见7.2 节)。建立每个参考区间时,倘若有异常值或离群值需要剔除,一定要注意及时选择别的受试者进行补充,直到能获得至少120 个可接受的参考值。而且,假如要确立分组(如不同性别组或不同年龄段组)的参考区间,每个组别的推荐参考观测数量至少也是120。
在有些群体中某种组别的参考个体(如新生儿,儿童,老年人)不容易获得的情况下,收集120个也许有些困难。如果可能的话, 允许研究年龄相仿的足够的参考个体。无论获得多大量的参考值, 数据应该仍然是根据非参数方法分析而且根据适当的百分位报告。
7.2 偏离样本的处理
评估参考限的一项重要的暗示性假设就是该批测量的参考值来自于“同质的”样本。也就是说所有的参考值均来自于同样的分布概率之下(即使用非参数的方法时这种分布格式没有特别规定)。
14
也许所有的参考值均能满足这种“同质的”情形, 但是总会有一个或二个人会出现超过同群人的概率分布范围。当这些值位于所有值之中时, 实际工作中要辨别他们非常困难。 除非此人在接受生化指标的检查时碰巧又发现这些观测值处于不正常的情况,或者是处理结果时出现一些算术或程序上的错误。不过,这些“偏移”值经常位于剩余测量的值域之外,他们很容易被确认为“离群值”而引起注意。
除非离群值是事先知道的偏移值 (如在剩余的检测中由于分析过程操作的错误或分析前的质量控制不到位),否则,我们还是强调不要剔除它,即应该继续保留他们。假如一个极端值被剔除之后,基于至少 120 例观测者的非参数法评估的参考限应该变化很小, 甚至不会改变。
要检测出一个不规则的偏僻观测值,有许多统计学技术可以利用(参见Barnett和Lewis的研究报道)。多数这些试验是依赖于一个假设,即观测参考值是遵循高斯分布的。而且, 当个别地在极端值上进行离群值的验证时,总是会有较小极端的离群值被掩盖的可能。Dixon已经提出了一个在参考值评估领域中非常有名的D/R比率的建议,即1/3规则。D 指的是一个极端观测值(大的或小的值)和紧接着的极端观测值(第二大或第二小的值)之间的绝对差值,而 R 是指所有观测值的全距,即最大极值和最小极值的差值。 Reed等人建议D/R值的1/3 就可当作是否要剔除观测值的临界值。也就是说,如果某个观测值的 D 值是等于或大于1/3 R值,该极端值就要被剔除。Reed等人还指出,对于样品含量是120的群体, 这个标准是相当的保守。也就是说,在余下的接着观测者中,经常无法剔除那些真正不在分布区间的离群值。然而, 由于缺乏一个离群值就是真正偏移受试者的证据,导致在分布范围之外的值将会时常不是高斯分布形式。这时1/3的D/R规则似乎是合适的,尤其当参考区间是采用非参数方法来确定的。因此,我们建议那采用这个试验测试和临界值来验证一组观测参考值是否是统计学意义上的离群值。
当有二或三个离群值均出现在分布区间的同一侧时(如均极大或极小),这1/3规则(或任何类似的 D/R 规则) 不能辨别那个最极端离群值具有统计学上的意义,也就同时掩盖了其他的仅比最极端值轻微些的离群值的存在。在这种情形下, 应该采用1/3规则将那最极端的离群值当作是唯一的离群值对待。如果规则导致这一个离群值被剔除,那么自然地就会有更多真正的极端观测值也被剔除。假如规则不赞成剔除最极端值,那么我们就应该要么接受所有的极端值,要么(可二者择一)应用一个试验综合起来考虑所有的离群值。这个试验叫做封闭程序,具体做法可参见Barnett 和Lewis报道的文献。
当离群值被剔除之后,恰当的做法就是在剩余的数据中寻找另外一个可能的离群值。
15
7.3 参考值的分组
在实际分析受试者之前,为确保实际操作过程分析的可靠性,必须充分考虑在不同组别设立不同参考区间的可能性。仅仅根据性别不同或不同年龄组来进行设置参考区间的范围不一定是正确的,除非有临床意义,和/或者是生理学上的原因。当然,对于一个新的分析样本来讲,决定是否进行分组设置所需要的信息也许根本无法得到。然而,如果这些情况都能满足,且根据性别或年龄等其他类型的分组的每组例数在120例以上,那么进行这些形式的分组是可以尝试的。
一般认为只要两个分组之间测得的均值的区别具有统计学显著意义(在 5% 或 1% 可信区间),那么每个组别就能保证其自身的参考值区间。不过,任何即使不具有临床意义的差值,只要样本含量足够大,都是具有统计学意义的。Sinton 等[17]认为一般不进行单独的参考区间的评估,除非组别间均值的差异达到25%,相当于从总的样本含量中估算出的参考区间的95%。
相反的,小组委员会的部分研究工作(Harris,Biyd等人)显示,较小的组间均值的差别可以导致高于参考值范围上限和低于参考值范围下限,各自分布的百分比与2.5%比较有明显的差异。这一研究意味着将样本作为一个总体测得数值,有可能可以得出组别之间敏感性和特异性的主要偏差,也可以出现严重阻碍作为有诊断意义的过程的一部分的试验结果的解释。(如果需要这个问题更深层次的讨论或有关确定参考区间的总论,请参阅Hanis EK, Body JC:医学实验室确定参考值的统计学基础,1995)。
此外,如果组别间均值是相同的,但标准差之比是1.5或多些,这种情况也能成立。同样的道理,分布范围较宽的组别在两端的延伸范围实质上超过较窄的组别。然而,这样的比率很少出现。在许多实际的例子当中,尽管组别间的均值在统计学有显著性差异,但标准差大致还是相同的。
综合上述研究,小组委员会推荐结论如下:首先,在实际参考总体的样本确定前,同试验分析方面相关的组别的参考区间的各种可能性都必须进行考虑。根据有关的生理学信息和具有临床潜在的实际意义进行区间的分隔也应该同时进行评价。
如果这样的评价显示可能存在组别差异性,而且可能具有临床意义,那么每组参考样本含量至少需要120例。这需要两个步骤完成,首先设置每组大约60例样本,对于二分类(例如,男性和女性或两个年龄组)来讲,两组间均值差异的统计学意义应该通过标准差的一般公式(公式1)进行检测。
16
其中x1 和x2 分别是两个组别的均值, s12 和s22 分别两组的标准方差, n1和n2则是各组的参考样本含量。假设每组至少60个样本含量, z-检验实质上是一个非参数检验,并能适用于不论是否是正态分布的原始数据。然而,如果原始数据分布严重不对称,通过一个简单的转换,例如对数转换,产生一个接近正态分布的并更适合于z-检验的数据。
统计的Z数值必须同“危急值” z*相比较。“危急值” z*的计算公式(2)如下:
Z
*
=3(naverage/120)
1/2
=3【(n1+n2)/240】
1/2 (2)
另外, 如果标准差(如S2)较大,应当检查看它是否大于1.5倍的S1, 或者检查看看, S2/(S2 - S1) 是否小于3。
例如, 假设在采样的第一个阶段末期,收集的平均每组样本含量是60个。然后,如果计算出的z值超过危急值z*=3(60/120)1/2=2.12, 或如果较大的标准差超出1.5 倍的较小的标准差, 那么每组抽样至少应该扩大到120个样本含量。同时重复进行Z检验和标准差的比较。如果此时每组平均样本含量是120, z* = 3 。如果平均每组样本含量超出120例, 危急值的Z检验的统计值将大于z* = 3。例如,如果平均每组样本含量是500, 危急值将是z* = 6.12 。
有一点必须注意, 如果Z值超出Z*, 或者较大标准差超出1.5倍较小的, 那么不论z值是多少,均假定两个组别的参考区间的差别有临床实际意义,必须计算出每组的参考区间。如果上述情况不存在,那么只需计算总体样本含量的参考区间,提供一个参考区间统一使用。
当超过两个组进行比较时,问题要更加复杂。这时我们可以寻找统计学方面的专家进行咨询,获得帮助。Harris等也遇到类似情况,并给出以下建议: 对于三个或更多的组别,推荐使用方差分析(ANOVA)来进行统计处理。然而,所有组别均值不同的统计学上的显著性,事实上都取决于两组间均值的差别或者一个组同总体样本间的区别。因此方差分析 (ANOVA) 的F-检验须同时进行配对T检验。T检验可对其他检验形式在0.05的概率水平进行检验,从而保证发现样本间真实的区别的高概率水平。普通的方差分析 (考虑不等样本量)和配对均值分析的T检验(或其他检验),在许多常用的统计程序包都可以有( 如SAS分析系统)。
17
但是必须明了,任何配对均值间的差异检验如果是显著的,就必须用z-检验重新进行检验。
以上推荐的统计学检验和准则,也可用于解决诸如一个实验室确定的参考区间是否可以不作任何变动,直接在别的实验室应用等问题(详见第8节) 。
7.4 举例说明
如直方图2 和3所示,分别代表检测1987~1988年间弗吉尼亚大学医学院学生的血清样本中的钙和丙氨酸转氨酶(ALT)值。原始数据依次列举在表5和表6中,包括了从每两组中统计得到的120个分析数据,年龄段在20至30岁的男性和女性。钙含量的直方图大致呈现正态分布;但ALT的数据图明显向右偏移。女性ALT 65 U/L 的极端值(表6)并不违反1/3规则的极值[(65 -47)/60 小于1/3],所以应该保留。ALT值的对数分布近似正态分布,两组数据分析结果显示男性比女性的高,而且根据性别进行参考区间的设置是有意义的。
图2 男、女血清钙直方图
18
图表5 240个医学生由性别差异的钙的频数分布
图表6 204个医学生有性别差异的丙氨酸转氨酶的频数分布
19
n 表示观测的参考值数量,这组参考数据是用于计算95%的参考区间。观测值首先按次
序排列好(如按大小排序)。用r 代表观测值的级别(排列最小值为r= 1; 最大值为 r = n) 。非参数方法要计算两种值,即最低的参考限 r1(第2.5个百分位数)作为相应的观测值r= 0.025 (n + 1),和最高参考限r2 (第97.5个百分位数)作为相应的观测值r =0.975 (n + 1) 。因为r1 和r2 的值通常不是整数, 在相应级别任何r1 和r2一侧的参考限值的计算也就会增加了普通的小数点数据运算。但是在这些样本中,因为n =120, 所以通过四舍五入方法后
20
r1 和r2的值是分别非常接近整数3 和118 :
r1 = 0.025 (121) = 3.025 ??3 (3) r2 = 0.975 (121) = 117.975 ??118 (4)
而当n = 240时, r1 和r2的值是分别接近整数6 和235。
使用这些受试参考人群的排序值来估计最高和最低参考限,获得以下95% 参考区间:
们所需要统计数据参见表7。
验证离子钙和ALT同年龄组的男性和女性之间平均值的区别有无统计学上的意义,我
图表7. 120例青年男子和120例青年女子钙和 Loge ALT 的平均值和标准差
被分析物 钙(mg/dL) logeALT(lo U/L) 平均值 男子 9.8 3.2 女子 9.57 2.78 标准差 男子 3.1 0.46 女子 2.9 0.44
将这些统计数据代入公式(1)中求z值,结果如下:
从上面结果可以看到,两个z值都超出了当样本含量为120时标准z值3 ,这意味着必须考虑为性别差异而建立不同的参考区间。但是,对于像离子钙这种分析物,尽管从生理角度看好像年轻男性离子钙平均水平要高于年轻女性,但男女不同的参考区间的临床重
21
要性似乎难以理解。假如有一个更大的样本含量, 不同性别的参考范围之间区别的临床意义也许会出现。所以,对于钙,实验室在建立这个年龄组男女离子钙参考区间时,可以选择只提供9.1~10.3 mg/dL的单一参考范围。离子钙分析方法的不精密度也许具有可比性,而且他们的变化可能在临床意义上和医师的反应上都相对比较小。
对于ALT, 用于为临床诊断目的而设立的不同性别有不同的参考区间的确具有临床意义。而且也有生理证据支持这个结论。
7.5参考限的置信度
选择受试者样本进行参考限计算就是研究人群相应百分数的评估。从同样人群中的其它抽样也许会得出稍微有些不同的参考限。利用样本提供的信息来识别和评定样本估算时的可变性,一个非常有用的方法是计算样品中百分数的可信区间。在现有条件下, 一个可信区间就是一个观测值的分布范围,包括指定概率中的真实的百分数(即总体的第2.5个百分数),通常90 或95% 。这种概率叫做“置信水平”的间距。
可信区间的概念是基于一种假设,即有代表性的观测者(在本文件又称为参考个体)是来自于从某些特定的人群中抽样。这意味着总体中的每个成员均有相同的机会被抽中。但事实上这种理想的状态经常是难以实现。我们期望的最大可能是, 在控制好标准的分析前状况下,选择参考个体进行抽样时参考样本真正来自于可靠的健康人。参考个体至少是从某个定义好的群体(例如实验室员工)中随意地抽取。因此,有关可信区间是否可靠的基本假设,获得的观测值是各自独立的,而且即使不是严格的随机抽样也要保证参考样本具有总体代表性。
然而,有两个理由表明可信区间是有用的。首先,它们提醒了研究人员要进行变异性评估并提供可变性评估的定量测定方法。其次, 当采集的样本量增加时可信区间就会变窄。所以,研究人员可以采取增加参考个体的样本含量来提高评估的参考区间的精密度。
非参数法的可信区间是由相应的观测值的秩来决定的。表8展示了一个由样本量大小决定的第2.5个百分位数而定义的90%可信区间(CI)的观测值的秩。
表8:第2.5个百分位数定义的90%可信区间的观测值的秩。【摘自美国临床化学委员会出版的《临床化学》1971年第17期275~284页(表3)】
a为最少样本的秩值,即研究目标群体第2.5百分点的90%可信区间的参考低限值;b为最少样本的秩值,即研究目标群体第2.5百分点的90%可信区间的参考高限值;要获得研究目标群体第97.5百分点的90%可信区间相应的样本秩值,只需将样本例数为(n+1)中减去a和b值即可。
22
样本例数,n 最少例数 最多例数 120 131 132 159 160 187 188 189 190 216 217 246 247 251 252 276 277 307 308 310 311 338 339 366 367 369 秩 a 1 1 1 1 2 2 2 3 3 3 4 4 5 b 7 8 9 10 10 11 12 12 13 14 14 15 15
举一个例子,当一个参考样本是由120人组成时,观测值90%可信区间的最低参考限相应的秩数为1和7。为获得90%可信区间的最高参考限相应的秩值,上述秩数应该减去由121例(一般为n+1)所获得的秩,即114和120。因此,最小的观测值就是90%可信区间的最低参考限,而最大的观测值为90%可信区间的高参考限。
综合表8所列秩数和表5、表6的原始数据,表9展示了90%可信区间的血清离子钙和ALT的最高及最低参考限。
表9 95%的最低和最高参考限的90%可信区间 被分析物 钙(mg/dL) 女性(n=120) 男性(n=120) 总体(n=204) ALT(U/L) 女性(n=120) 男性(n=120) 总体(n=204) 最低参考限 8.8-89.1 9.1-9.3 8.8-9.1 5-8 9-11 6-9 最高参考限 10.1-10.3 10.3-10.6 10.3-10.6 36-65 51-69 49-65 注:mg/dL * 0.02495=mmol/L
23
8 参考区间的调用和验证
8.1参考区间的调用
确立一个可靠的参考区间是一项非常重要而花费昂贵的工作。通过采用一些更省钱和更方便的确认程序,把一个实验室的参考区间调用到另一个实验室将是非常有用的方法。随着愈来愈多新的检测项目和方法被实验室引进,要求每个实验室,无论其规模大小,都去研究自己的参考区间是不现实的做法。因此,临床实验室可以越来越多地依赖其它实验室或诊断试剂生产商的帮助,从而在确定参考区间时利用他们提供的适当而足够的参考数据。参考值的调用可能是一件复杂的事情,要达到可以接受需满足某些必要条件。可接受调用的必要条件是因情况而异的:
(1)采用相同(一样)的分析系统(包括方法和仪器)进行检测的参考值的调用。
(a) 在同一个实验室进行调用 (b) 从一个实验室调用到另一个实验室
其中又有两种情形:
? 受试者是来自相同地区和人口统计学意义的群体; ? 受试者是来自不同地区和不同人口统计学意义的群体。
(2)用不同分析系统(不同的方法或不同的仪器)检测分析物,其参考区间调用。
(a)在同一个实验室进行调用 (b)从一个实验室调用到另一个实验室
其中又有两种情形:
? 受试者是来自相同地区和人口统计学意义的群体; ? 受试者是来自不同地区和不同人口统计学意义的群体。
假设原始参考值研究得非常透彻,那么各自进行参考区间的调用就面临者两个主要而突出的问题:即分析系统的可比性和观测群体的可比性。
如果利用临床实验室当前的检测系统,对受试人群某观测物确定的合适参考区间已经存在的话,那么在同一实验室进行改变方法/或仪器后参考区间的调用,就成为两个分析系统的可比性的问题。我们可以参考NCCLS 的EP9文件-《利用病人样本进行的方法比较和偏差评估》,其中描述了实验室工作人员在进行方法学比较和评价的时候应该考虑的程序和因素,大家应该参阅文件的详细内容。一般来说,如果考虑到分析系统有不同的精密度并确定有干扰的话,那么就应该用相同的或有可比性的标准品或者校准品,采用相同的报告单位,这样获得的绝对观测值,就可以说是当前的分析方法与比对方法是可接受的。但是,
24
当用NCCLS 的EP9文件指南进行验证后,发现可比性性能评估为不可接受时,那么实验室就必须进行自己的新的参考值的研究。
如果临床实验室希望把其它实验室或诊断试剂生产商采用相同的(或可比性可接受的)分析系统研究建立的参考区间进行调用,这种情况调用的问题就变成了参考人群是否具有可比性了。另外,其他会干扰参考值研究的分析前因素也必须是可比的,比如,参考个体分析前的准备,标本的采集和处理程序等等。实验室进行这一类型的调用日益普遍,此指南可以帮助临床实验室解决许多关于参考区间赋值等问题。
8.2 参考区间的验证
相同(或可比性可接受)的分析系统之间参考区间的调用,主要有三种方法来评估其可接受性。
(1)调用的可接受性,可以通过审查研究原始参考数据时的相关因素来主观地评定。要做到这些,总体中所有参考个体的地区分布和人口统计学情况都必须有详尽的的记述,并且资料可用于评审。分析前和分析中的程序细节、分析的执行过程、整套的原始参考数据以及评估参考区间采用的方法等等,都必须有说明。如果实验室工作人员要参与某些因素的判断,要保证所有接受实验室实验的群体中这些因素的始终一致,那么除拥有描述这些考虑因素的文件外,无需要求接受参考区间的实验室做任何验证研究,参考区间即可调用。
(2)另一种情况是,试剂厂商或其他实验室提供的一组参考区间,用户或接收实验室可能想要或被要求去证实它可被调用。调用的可接受性的评估,可以通过从接收实验室自己的受试者总体中抽出一小组参考个体(大约20例样本即可),研究自己的小样本和调用的原始的相对较大样本群体的参考值之间的可比性。还要指出的是,原始参考值研究的分析前和分析中各因素控制必须和接收实验室的操作保持一致。如果两组研究对象存在会导致参考区间差异的地理区域或者人口统计学意义上实质性不同,参考区间调用也毫无意义。用于调用验证的参考个体必须是在选择条件上和参考值的获取等方面均要和之前讨论好的指导方针保持一致。这20个人应该合理地代表接收实验室选择的健康总体,并且恰当地满足其排除和分组标准。依照标准的操作规程检验完这20个样本之后,应该审查检验结果是否在统计学上属于同一群体,比方说这些结果中不包含离群值。要检验是否存在离群值,应该采用前面论述的“1/3”规则。任何明显的离群值都应该被弃用,并且代之以新的病例样本以确保20例测试结果不含离群值。
假如20例受试者中不超过2例(或测试结果的10%)的观测值落在起始报告的界限之
25
外的话,试剂生产厂商或其他实验室报告的95%参考限可以有效地应用于接收实验室。如果三例(含3例)以上超出了界限,则必须采集另外20个和原来类似的样本,同样必须没有离群值。如果后来采集的20个样本中的新结果,少于2个观测值超过试剂生产厂商或其他实验室报告的参考限,那么报告的参考限便可用于接收实验室。但是如果又有三个以上(含3个)值超出界限,用户就应该重新检查一下所用的分析程序,考虑两个样本总体生物学特征上可能存在的差异,并且考虑是否在接收实验室内按照全规模研究的指南建立自己的参考区间。要求接收实验室用相同或可比的分析方法对经由挑选的20个受试者进行测试,如果少于2个结果超出界限,则可以采用生产厂商或其他实验室报告的参考限,这种方法在统计学上可以借助二项式分布表格来证明。发生错误排斥95%参考限的可能性(即当至少95%的接受实验室自己的参考人群的观测值确实落在参考限之内时发生不接受报告的参考限的可能性)只有5~7%,这个概率非常接近于采用离散统计约定的5%的错误排斥无效假设的概率。
(3)调用的可接受性的评估和验证,也可以通过检验稍微多一点(大约60例)的接收实验室自己的受试者总体中抽出的参考个体,探讨这些参考值和调用的原始相对较大样本群体的参考值之间的可比性。这里照样要指出的是,接收实验室的操作必须和控制原始参考值研究的分析前和分析中各因素的措施保持一致。而且如果两组研究对象存在会导致 参考区间差异的地理区域或者人口统计学意义上实质性不同,参考区间调用也毫无意义。
参考个体的精选和参考值的获得要遵循本指南中第4节及第5节所讨论的内容。在采取适当的数据检验和剔除离群值之后,要进行较小样本的参考值与其他实验室报告的相对较大原始样本的参照值比较。像第7节讨论的那样,看参考群体总体中是否存在分组的可能,然后采用相同的方式来处理这两组参考值。如果这个评估没有发现其他实验室报告的参考值和接收实验室简捷测试的参考值之间存在重大而明显的差异(分组区别),那么报告的参照区间就可以调用。不过,如果按照分组协议发现存在明显的差异,则需进一步采样进行比较,或者直接采用全规模的参考值的研究。
有人说还有可能存在一个更普遍的方案,可用于解决包括不同分析系统之间参考区间调用问题,那就是只要凭借确定好“真正的”生物参考分布,参考值就可被调用。
为了获取一个“真正的”生物学分布状态数据,我们要考虑当地方法学上的偏倚和不精密度所产生的影响,来调整或修正其他实验室报告的参考值分布。接收实验室针对他们各自的分析系统做逆向调整,以获取参考分布数据。人们认为只要两种方法之间的数学关系被适当地描述,即使度量单位不一样,这种方案也能够指导不同方法学之间参考区间的
26
调用。然而,人们还没有对这种方案进行全面的探究,今后需要进一步的研究。它明没有指出,也无法纠正参考总体之间存在的潜在差异。
9 参考值的描述 9.1 简要介绍
本节将介绍被观测者或病人的检测值涉及到的参考值描述。内容分两部分。其中9.2介绍由实验室和最终使用者提供的参考值的描述;9.3覆盖相同的话题,作为向临床实验室提供定量诊断测试的仪器试剂制造商的参考值描述的应用。
9.2 参考值的实验室描述
每个定量的临床结果均应该附上合适的参考区间。详列许多检测结果的冗长报告单应该将所有不在参考区间之内的异常结果以提醒的某种方式突出显示。倘若实验室自己的某个特殊参考群体分组的意义已被确认,参考区间的运用时应该能反映出来。报告中将患者检验结果进行标记以表明病人结果与参考区间的关系,是非常有用的。报告单中应使用“参考范围”这个术语,而不提倡使用“正常范围”或“ 正常值”或“预期值”等。一个大家认同的做法是在报告单中毗邻患者结果处标记上“偏高”或者“偏低”等字样。插图4 是一个代表性报告单。
使用参考区间被预先印制好的表格,既要求为所有组别列出参考区间,还可能导致出现一个模糊不清的报告。一种更好的方法是,使用电脑或检测仪器能专门为不同的患者自动打印相应的参考区间。实际工作中,大多数只进行患者性别和年龄的参考区间分组。任何使用分组参考区间的报告,应该将患者分组的因子放在报告单的页眉(标题)或人口统计学部份的报告中。
包含描述参考群体特征和参考区间研究详细内容的文件应该方便实验室服务的所有用户查阅。实验室任何时候会影响参考区间在使用上的一个变化,这个文件就应该及时更新。描述参考区间已经改变的备忘小册子应该及时送到实验室所有用户的手中。应该包括表明参考个体数量和人口统计学意义, 用于评估的健康标准, 用于参考样品的剔除和分组标准, 以及各组总体样本的大小。实验室应该将有关描述研究参考区间分析前因素, 分析方法的细节,分析的不精密度和不准确度和分析使用的统计学方法等内容的文件一起存档。有关难于获得足够受试者研究数量的组别(新生儿等)的参考值, 只要求报告观测的百分位数,观测者的数量,有时是所有的观测值和整个范围。
27
插图4 实验室报告单样板 患者姓名: DOE, JANE 当前日期/时间: 01/07/95/12:37 病人身份证号: 1234 标本收集时间: 01/07/95/7:22 标本编号:1001 样本采集人: J.L. 年龄: 25 医生: BROWN 性别: 女 样本状态: 科室: 外科重症监护病房 检测项目 结果 单位 参考范围 代码组 白蛋白 5.2 HIGH g/dL 3.9-4.9 # 谷草转氨酶 6.0 LOW U/l 13.6-39.7 # 氯 85 LOW mmol/L 95-103 # 葡萄糖 75 mg/dL 70-106 # 钾 4.0 mmol/L 3.5-4.8 # 钠 150 HIGH mmol/L 135-145 # 磷 4.0 mg/dL 2.4-4.7 # 甘油三酯 250 HIGH mg/dL 35-160 # 审核者签名 9.3 仪器试剂制造商参考值的描述
实验室设备尤其是数据管理系统方面的制造商,应该保证有能力依据不同情况打印出的各组的参考区间和相关的病人统计学资料(见9.2章节说明)。
用于定量诊断检验的设备和试剂制造商应该在产品商标(操作手册和包装说明书)上注明参考区间的相关信息。在该商标上制造商还应该参考本指南,并让大家明白本参考样本大小规模的基本标准,预分析和分析变异的控制,以及使用过的统计学处理。对这些检
美国xxxx医院病理学实验室 xxxx,xxxx,xxxx,xxxx,USA 28
测手段进行充分研究和将参考样本进行分组的各种因素进行认证后,制造商应该为各组提供参考区间。制造商还应该说明大多数常用的分组因素是否为组别的不同而都进行了测试,诸如性别,年龄,是否禁食,一天中的时间段,妊娠,体位等。
制造商使用的参考样本群体应该同他们产品市场的地理分布具有相似性,因为参考个体地域不同而导致分组不同,认识到这一点是非常重要的,而且影响因素不仅有地域因素,还包括环境,饮食习惯和种族背景的不同等。
为协助实验室参考值的调用,制造商的所有有关参考区间的研究内容都必须在需要的时候方便得到。这些内容必须和第9.2节对实验室所提出的要求一致,另外还应包括每个参考个体的观测结果。
10 其他问题 10.1 定性分析方法
对参考数据进行定性分析的评价不属于本文件范围。 10.2 治疗药物水平
本指南并未讨论如何确定治疗药物的水平。这是一个不同的研究。参与这些研究的受试群体必须在药物药理作用的影响之下和达到一定的有效临床药效水平。这个问题很复杂,涉及一系列额外问题,如剂量、增量、采集样本时间与药物服用时间的关系、给药的途径、临床疗效、毒性以及其他事项。
10.3 时间依从性/时间挑战性测试
本指南没有能力向用户提供所有需要的细节以制定有关时间依从性/时间挑战性测试或研究的协议,这些测试或研究需要通过一系列的检测。显然除了那些有关的“常规因子”外,还应该有很多其他因素需要考虑。
10.4 个体差异
本指南仅仅探讨了以总体人群为基础的设置参考区间问题,而没讨论“个体”的参考区间,尽管这些个体样本因素是相关的。个体差异的问题将涉及到生物构成的独立性研究,并应该在给定实验条件下测试每个个体观测值的总方差。
10.5 危急值/医学决定水平
本指南并没打算探讨“危急值”或其他医学决定水平的问题。医学决定水平不同于参考范围,因为他们还取决于其他科学和医学知识,而且它们可能还与特定的医疗条件相关。通常它们的来源并不同于参考区间。在某些情况下,比如国家的胆固醇与限制摄入脂类的相关风险教育计划,医学决定水平可能比以总体人群为基础设置的“健康人群参考区间”
29
更适合使用。这些情况下,与“健康人群参考区间”相比,医学决定水平更应该附带在病人实验结果的报告当中。
10.6 制造商资料
制造商应满足临床实验室的要求,为其提供所有参考值数据以及参考值研究试验的记录信息。这些资料是非常有价值的,尤其对于很多的体内试验样本的分析,并能简化验证参考区间时的许多额外工作。这些数据还将有助于评价分析物参考区间的可调用性。
11 总结
本指南中,小组委员会推荐一种基本的能提供更系统化的程序方法用来确定参考区间。从这篇文献中可以看出,该程序论据充分,同时与产生可靠的参考值的理论是相一致的。以下基础原则都是非常重要,而且都应作为一切参考值研究的基础。
(1) 必须慎重选择参考个体,应提前考虑给定的剔除和分组标准。参考人群必须是合理的,而且有助于确定病人的疾病和异常症状。参考个体健康状况的评价必须以文档的形式保存,并在参考值研究和定义参考区间的文献中标明。评价健康状况这一步骤并没有严格的定义,就像健康本身而言是不能够严格地下一个定义的。评价过程根据研究目的的不同,在操作的精细度和费用方面的规定都不同;然而,这些描述是允许其他的研究者或者最终使用者去了解参考值研究中的任何局限性的。参考个体的定义和描述越详尽,对参考区间研究的价值就越大。小组委员会拒绝将参考人群绝对地定义为健康成年人的金标准,并反对将该标准作为确定与健康相关的参考区间的前提条件。通常也反对将医院或诊所的病人作为参考人群。只有在无法获得“非病人”参考个体,并根据排除条件和分组标准仔细筛选后才能使用病人数据来推论参考区间。
(2) 所有的与参考值评价相关的分析前和分析中程序,都必须经过仔细的考虑,而且应控制在合适的范围内。无论是对待参考个体,还是对待用于测试的病人群体,所有因素都要求是相同的,这点非常重要。
(3)因为估计参考区间的非参数方法比较简单和可靠,因而受到推崇。更重要的是,这种方法不需要对参考值的数学形式,即概率分布作任何假设。某些特殊情况下可能需要更为精细的统计学方法可能才有意义,但是这些情况就需要更有效的统计学专业知识。
(4) 建议制定统一的程序检测并剔除离群值。
(5) 建议采用严格和系统的方法来决定何时需要分组并建立各组的参考区间。 (6) 本指南建议每个参考人群或每小组的最小样本量为120各观测值。这也是用来在参考范围内确定90%置信区间最小的样本数量(例如,2.5%和97.5%)。如果需要得到更
30
高的置信水平或评价95%的更精确参考区间,则需要更大的参考个体样本。
(7) 正如指南所列举的那样,将参考区间进行调用只有在特定的情况下才能完成。可接受的调用应该可以通过对报告的参考值的所有细节进行认真审查来实现,其可比性不需要实验室进行任何验证;或者通过较小样本研究来验证,即接受实验室采用简短的20例样本与报告实验室的参考值进行比对试验;或通过正态标准差检验(用于确定是否需要分组设立参考区间)。然而,如果接受实验室和报告参考值的实验室在人口统计学或地理学方面的确存在较大的差异的话,建议不要进行参考值的调用。
(8) 必须规定为实验室和临床医生提供适当的足够的参考值和参考区间的说明。只要有需要,所有关于参考区间研究的细节应该都能够很容易地获得。
最后,由NCCLS的参考区间小组委员会认为草拟一个国家或地区性的参考样本采集方案是必要的,并提倡建立一个用于参考区间研究的样本库。利用适当的财政支持,完善的试验计划书和大量的样本人群作为条件保障,参考区间的质量就能得到显著提高。临床实验室应能够并可以很方便地检测出参考区间在人口统计学和地域方面的差异。应减少局域性参考区间的重复研究费用,并避免不恰当的参考区间研究费用的浪费。可靠的参考区间调用应该通过使用这些样本库研究并以文档的形式保存起来。
因为全国性的样本库是最理想的,应有助于参考区间研究数据的累积,进行这些数据的研究条件应与全国性数据库的研究条件相一致,均遵循本NCCLS指南。我们最后积极鼓励各操作细节和变量检测的文件化,并描述保持方法学一致的要点。
31