基因功能研究技术 - 图文 下载本文

第六章 分子生物学研究法 (下)基因功能研究技术

随着越来越多的基因组序列相继被测定,人类对生物本质的认识已经发生了重大变化。但是,海量序列信息也向我们提出了新的挑战。如何开发利用这些序列信息,如何通过生物化学、分子生物学等方法研究基因的功能,从而进一步了解生物体内各种生理过程,了解生物体生长发育的调节机制,了解疾病的发生、发展规律,给出控制、减缓甚至完全消除人类遗传疾病,是新时期生物学家所面临的主要问题。转录组测序技术、原位杂交技术、基因芯片技术为研究单个或多个基因在生物体某些特定发育阶段或在不同环境条件下的表达模式提供了强有力的手段。用基因定点突变(site-directed mutagenesis)技术、基因敲除技术、RNAi技术可以全部或部分抑制基因的表达,通过观察靶基因缺失后生物体的表型变化研究基因功能。酵母单杂交、双杂交技术,四分体技术等都是研究蛋白质相互作用、蛋白质-DNA相互作用等的重要手段。随着分子生物学技术的发展,研究者可以在活细胞内和细胞外研究蛋白质之间的相互作用,为认识信号转导通路、蛋白质翻译后修饰加工等提供了丰富的技术支持。本章将主要介绍研究基因功能的各种分子生物学技术和方法。

6. 1 基因表达研究技术 6. 1. 1转录组测序 6.1.1 转录组分析和RNA-Seq

转录组(transcriptome),广义上指在某一特定生理条件或环境下,一个细胞、组织或者生物体中所有RNA的总和,包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)及非编码RNA(non-coding RNA或sRNA);狭义上特指细胞中转录出来的所有mRNA的总和。基因组-转录组-蛋白质组(genome-transcriptome-proteome)是中心法则在组学框架下的主要表现形式。通过特定生理条件下细胞内的mRNA丰度来描述基因表达水平并外推到最终蛋白质产物的丰度是目前基因表达研究的基本思路。

转录组研究的基本方法包括基因芯片技术(gene chip)和转录组测序技术。

264

我们将在6.4节详细叙述基因芯片技术,这里主要讨论转录组测序技术的原理和应用。

基于传统的Sanger测序法对转录组进行研究的方法主要包括:表达序列标签(expressed sequence tag,EST)测序技术,基因表达系列分析技术(serial analysis of expression,SAGE)。EST测序数据是目前数量最多,涉及物种最广的转录组数据,但测序读长较短(每个转录本测定400 bp-500 bp),测序通量小,测序成本较高,而且无法通过测序同时得到基因表达丰度的信息。有人使用SAGE测序法,将不同转录本3’端第一个CATG位点下游14 bp长的短标签序列来标识相应的转录本。由于标签序列较短,可以将多个标签串联测序,使SAGE法相对于EST测序在通量上大大提高。但过短的序列标签使得序列唯一性降低,即使改进过的LongSAGE用21 bp标签测序,仍然有约一半的标签无法被准确注释到基因组上。

高通量测序技术(high-throughput sequencing),又名二代测序(second-generation sequencing)或深度测序(deep sequencing),可以一次性测序几十万甚至几百万条序列,是传统测序技术的一次革命。主要有Roche公司研发的454测序平台和Illumina公司的Solexa测序平台(表6-1)。

表 6-1 454和Illumina高通量测序平台比较

读取长度(bp) 单次测序数据量 测序周期 测序成本 454 约700 700 Mb 23小时 较高 Illumina 50-150 600 Gb 7-14天 低 虽然都是基于“边合成边测序(sequencing by synthesis,SBS)”,但是454和Illumina的实现方法有很大的不同。454系统采用焦磷酸测序(pyrosequencing)原理,如图6-1a所示,在DNA 聚合酶的作用下,按照T、A、C、G顺序加入的单个dNTP与模板的下一个碱基配对,同时释放一个分子的焦磷酸(PPi),在ATP硫酸化酶的作用下,PPi和腺苷酰硫酸(adenosine-5’-phosphosulfate,APS)结合形成ATP,在萤光素酶的催化下,ATP和萤光素结合形成氧化萤光素,产生可见光,被CCD捕捉。而Illumina系统(图6-1b)采用带有萤光标记的dNTP,其3’羟基末端带有可被化学切割的部分,每个循环反应只允许掺入一个碱基,由激光扫描反应板表面,读出这一轮反应新加的萤光信号,从而判定碱基种类。之后,经过

265

化学切割恢复3’端粘性,进行下一轮聚合反应。从上述描述中不难看出,随着反应的进行,已有萤光信号会使新的荧光难以准确分辨,因此该方法的测序读长较短,测序错误主要是碱基替换。而454则由于缺少终止反应的元件,相同碱基的连续掺入常会带来“插入-缺失”类型的测序错误。

利用高通量测序技术对转录组进行测序分析,对测序得到的大量原始读长(reads)进行过滤、组装及生物信息学分析的过程被称为RNA-Seq。对于有参考基因组序列的物种,需要根据参考序列进行组装(reference assembly),对于没有参考序列的,需要进行从头组装(de novo assembly),利用大量读长之间重叠覆盖和成对读长(pair-end reads)的相对位置关系,组装得到尽可能完整的转录本,并以单位长度转录本上覆盖的读长数目(reads per kilo-base gene per million bases,RPKM)作为衡量基因表达水平的标准(图6-2)。在实际组装过程中,图中红色标示区域覆盖度过低,且读长缺乏相对位置信息的区域,其可信度较低,应当剔除,保留两侧序列。

现以棉花转录组学数据为例,简单分析不同组织或纤维不同发育时期基因表达情况(表6-2)。Illumina平台测序得到26.86Gb数据,经过从头组装总共获得了42,773条非重复序列,平均长度1,054碱基。每个不同组织中分别有23,265至26,427个独立转录本。转录组数据不但能用来分析不同组织中独立转录本数量,还被用于分析特定转录本在某个组织中的表达强度(表6-3)。RNA-Seq还可以用于转录本结构、转录本SNP检测、非编码区功能鉴定以及挖掘低丰度转录本等研究。

266

表6-2 陆地棉6个组织的RNA-Seq数据分析

独立基因

组织样品 读长数 碱基数 Q20(%) N50 总数 开花后0天胚珠 47907298 3593047350 98.22 827 26427 开花后5天胚珠 53022210 3976665750 97.86 842 23520

48049786 3603733950 97.99 823 23265 花

54191238 4064342850 97.51 820 25280 叶

79438254 7149442860 91.68 786 23905 根

49713024 4474172160 91.46 782 24088 茎

总计 332321810 26861404920 1306 42773 1

Q20,测序准确率达到99%。

1

独立基因 长度(nt) 778 786 775 776 753 746 1054

表6-3棉花组织特异性转录因子表达强度分析 RPKM RPKM 序列标识 基因 根 茎 序列标识 基因 根 茎 Unigene58528 MYB-L 81.86 0.16 Unigene85367 FAR1 0.40 65.51 Unigene58563 B3 56.02 0.00 Unigene29146 HD-ZIP 0.00 44.49 Unigene58582 B3 53.66 0.29 Unigene51008 HB 0.24 43.60 Unigene58458 Dof 45.54 0.00 Unigene18073 MIKC 0.13 36.74 Unigene55872 Dof 41.56 0.00 Unigene64521 MYB 0.15 31.71 Unigene51911 bHLH 36.64 0.19 Unigene58698 B3 0.09 24.01 Unigene58446 NAC 28.40 0.37 Unigene62109 MYB 0.04 18.45 Unigene57837 bHLH 20.27 0.00 Unigene52681 bZIP 0.20 17.62 Unigene58640 S1Fa-L 20.25 0.68 Unigene64531 G2-L 0.34 16.92 Unigene55579 B3 15.71 0.13 Unigene64486 bHLH 0.00 14.49 转录组组装过程中,同一个非重复序列上复盖有来自根、茎等不同组织的读长,不同读长数目通过归一化转变为RPKM值,进而筛选得到组织特异表达的转录因子。

6. 1. 2 RNA的选择性剪接技术

RNA的选择性剪接是指用不同的剪接方式(选择不同的剪接位点组合)从一个mRNA前体产生不同的mRNA剪接异构体的过程。一般将选择性剪切分为如下几类:平衡剪切、5’选择性剪切、3’选择性剪切、外显子遗漏型剪切及相互排斥性剪切(图6-3)。一般用RT-PCR的方法研究一个基因是否存在选择性剪切。首先以cDNA两端特异引物或来自不同外显子的引物序列在不同组织来源的RNA样品中进行扩增,观察PCR产物大小是否存在差异。一旦发现差异,即可通过序列分析来判断这种差异是否来自于选择性剪切。图6-4为拟南芥中发现的有选择性剪切的5个转录调控因子基因的物理图谱。选择性剪接使一个基因翻译为多种蛋白质序列,是基因表达多样性的重要表现形式。分析人类基因组数据发现,有60%的基因在表

267