协和考博分子生物学笔记 下载本文

分子生物学笔记

第一章基因的结构 第一节基因和基因组 一、基因(gene)

是合成一种功能蛋白或RNA分子所必须的全部DNA序列。 一个典型的真核基因包括 ①编码序列—外显子(exon)

②插入外显子之间的非编码序列—内合子(intron) ③5'-端和3'-端非翻译区(UTR) ④调控序列(可位于上述三种序列中)

绝大多数真核基因是断裂基因(split gene),外显子不连续。

断裂基因:在真核蛋白质编码基因中发现的一种编码序列不连续的间断基因,亦即是在其核苷酸序列中间插入有与氨基酸编码无关的DNA间隔区,使一个基因分隔成若干个不连续的区段。 基因座位(gene locus):指基因在染色体上的位置。经典的或说是传统的是把locus定义为基因,亦即是遗传座位(genetic locus)或染色体座位(chromosomal locus)。现在普遍接受的概念是,能够用某种特殊的方法确定的任何一个染色体位置,或者说染色体的一个区段,都可以叫做基因座位或染色体座位。

重叠基因(overlapping gene):核苷酸编码序列彼此重叠的、编码不同蛋白质的两个或多个基因称为重叠基因,又叫嵌套基因(nested gene)。它最早是在大肠杆菌噬菌体中发现的,后来在真核生物中也发现有此类基因。

标记基因(marker gene):指其染色体座位是已知的,并易于根据编码产物或杂交实验检测其存在的一类独特的基因。标记基因可用作绘制新基因座位的参照点。

二、基因组(genome):泛指一个有生命体、病毒或细胞器的全部遗传物质,在真核生物,基因组是指一套染色体(单倍体)DNA。或对真核生物而言,基因组就是指一个生物体的染色体所包含的全部DNA,通常又称为染色体基因组。

一特定生物体的整套(单倍体)遗传物质的总和。 基因组的大小用全部DNA的碱基对总数表示。

人基因组3X109(30亿bp),共编码约2万个基因。

每种真核生物的单倍体基因组中的全部DNA量称为C值,与进化的复杂性并不一致(C-valueParadox)。 人类基因组计划(humangenomeproject,HGP)

基因组学(genomics),结构基因组学(structuralgenomics)和功能基因组学(functionalgenomics)。 蛋白质组(proteome)和蛋白质组学(proteomics) 第二节真核生物基因组

一、真核生物基因组的特点:

①真核基因组DNA在细胞核内处于以核小体为基本单位的染色体结构中。 ②真核基因组中,编码序列只占整个基因组的很小部分(2~3%)。 二、真核基因组中DNA序列的分类

(一)、高度重复序列(重复次数>105)卫星DNA(Satellite DNA) (二)、中度重复序列 1.中度重复序列的特点

①重复单位序列相似,但不完全一样, ②散在分布于基因组中,

③序列的长度和拷贝数非常不均一,

④中度重复序列一般具有种属特异性,可作为DNA标记, ⑤中度重复序列可能是转座元件(返座子)。

2.中度重复序列的分类

①长散在重复序列(long interspersed repeated segments)LINES ②短散在重复序列(Short interspersed repeated segments)SINES SINES:长度<500bp,拷贝数>105,如人Alu序列。

LINEs:长度>1000bp(可达7Kb),拷贝数104~105,如人LINEl。

(三)、单拷贝序列(Unique Sequence)包括大多数编码蛋白质的结构基因和基因间间隔序列。 三、基因家族(gene family)

一组功能相似且核苷酸序列具有同源性的基因。可能由某一共同祖先基因(ancestral gene)经重复(duplication)和突变产生。 基因家族的特点:

① 基因家族的成员可以串联排列在一起,形成基因簇(gene cluster)或串联重复基因(tandemly

repeated genes),如rRNA、tRNA和组蛋白的基因;

基因簇:基因家族中各成员紧密成簇排列成大串的重复单位,定位于染色体的特定区域。它们属于同一个祖先的基因扩增产物。也有一些基因家族成员在染色体上排列并不紧密,中间还含有一些无关序列,但总体是分布在染色体上相对集中的区域。基因簇中也常常包括一些没有生物功能的假基因。 同源基因(homologous genes):来自不同生物,但编码着同样蛋白质产物的基因称同源基因。它们的核苷酸序列往往相类似,因此可作为DNA杂交探针使用。

②有些基因家族的成员也可位于不同的染色体上,如珠蛋白基因;

③有些成员不产生有功能的基因产物,这种基因称为假基因(Pseudogene),Ψa1表示与a1相似的假基因。

假基因分类。加工过的假基因(processed pseudogene)。 典型的基因家族

1.tRNA基因单倍体人基因组中1300个tRNA基因,tRNA基因簇。

2.rRNA基因>l00copy。rRNA基因簇(重复单元28S、18S、5.8s-rRNA) 3.组蛋白基因30~40copy。定位:7q32~q36

组蛋白基因簇(重复单位:H1,H2A,H2B,H3、H4)特点:无intron,Poly(A)-RNA。 4.珠蛋白基因

α类:16p13,基因簇(24Kb):5?—δ—Ψδ—Ψα1—α2—α1—3? β类:11p15,基因簇(60Kb):5?—δ—Gr—Ar—Ψβ—δ—β—3? 四、超基因家族(Super gene family,Super family)

由基因家族和单基因组成的大基因家族,结构上有程度不等的同源性,但功能不同。 五、人类基因组中的重复序列标记 1.A1u序列

单倍体人基因组50万~100万拷贝,平均每隔3~6Kb就有一个Alu序列,人A1u序列长300bp:2X130bp重复序列;+31bp间隔序列(中间);两侧7~21bp正向重复(direct repeats),返座子? Alu序列广泛散布于人基因组,约90%已克隆的人基因含有Alu序列,Alu序列标志。

2.可变数串联重复(Variable number tamdem repeat,VNTR),又称小卫星DNA(minisatellite DNA)。由短重复单位(6~40bp)串联重复(6~100次以上)而成,多位于基因的非编码区,广泛分布。 VNTR多态性——分子标记——DNA指纹图(fingerprint)。因为小卫星DNA长度上的变化,容易落入方便的Southern blotting方法所能检测的范围内,不同个体的小卫星DNA的细微差别可被检测,从而形象地提供了每个人的DNA指纹(fingerprint)。 小卫星DNA突变与肿瘤,H-Ras。

3.短串联重复(short tandem repeat,STR),又称微卫星DNA(microstallite DNA) 2~6个核苷酸组成的重复单位串联重复(10~60次),两侧为特异的单拷贝序列,人基因组中每l0kbDNA序列至少一个STR序列。(CA)n,50,000~100,000拷贝。 新一代遗传标记,人类基因组研究,肿瘤,遗传病。

第三节线粒体基因组 人线粒体基因组的特点:

1.人线粒体基因组为16,569bp的双链闭环分子,一条链为重链(H链),一条链为轻链(L链),两条链均有编码功能,每个mtDNA分于编码13种蛋白质和24种结构RNA(22rRNA,2tRNA)。 2.线粒体DNA为母系遗传。

3.结构基因不含内含子,部分区域有基因重叠,因此病理性mtDNA突变更易发生。 4.mtDNA突变频率更高。

5.线粒体DNA突变的表型表达与核DNA不同。 第四节细菌和病毒基因组 一、细菌基因组的特点。

1.功能相关的几个结构基因往往串联在—起,受它们上游的共同调控区控制,形成操纵子结构, 2.结构基因中没有内含子,也无重叠现象。 3.细菌DNA大部分为编码序列。 二、病毒基因组的特点

1.每种病毒只有一种核酸,或者DNA,或者RNA; 2.病毒核酸大小差别很大,3X103~3X106bp; 3.除逆病毒外,所有病毒基因都是单拷贝的。

4.大部份病毒核酸是由一条双链或单链分子(RNA或DNA),仅少数RNA病毒由几个核酸片段组成。 5.真核病毒基因有内含子,而噬菌体(感染细菌的病毒)基因中无内含子。 6.有重叠基因。

第五节染色质和染色体

细胞分裂间期——染色质(chromatin),分裂期——染色体(chromosome) 一、染色质的基本单位—核小体 (一)、核小体(nucleosome)结构

DNA绕在组蛋白八聚体(H2A、H2B、H3、H4各一对)核心外1.8周(146bp),形成核小体核心颗粒。 两个核小体核心颗粒之间有Linker DNA(0~80bp),核小体核心颗粒+Linker=核小体(长180~210bp),核小体DNALadder。

(二)、组蛋白(histone):一类小的带有丰富正电荷(富含Lys,Arg)的核蛋白,与DNA有高亲和力。 组蛋白分类:

1.核小体核心组蛋白,H2A,H2B,H3,H4。分子量较小(102~135aa) 作用:盘绕DNA形成核小体。

2.H1组蛋白:较大(220aa),作用:与LinkerDNA结合后利于核小体稳定和更高级结构的形成。 二、染色质的高级结构 1.30nm染色质纤丝,

2.袢环结构(looped domain)。 3.细胞分裂期染色体

分裂期染色体=一对姐妹染色单体(Chromatid)

有丝分裂中期46条染色体按大小和形状排列的的光学显微镜图像称为人的染色体核型(Karyotype)。 三、染色体的结构要素。

(一)、着丝粒(centromere):细胞分裂时染色体与仿锤丝相连结的部位,为染色体的正常分离所必需。 (二)、端粒(telomere):真核生物线状染色体分子末端的DNA区域。 端粒DNA的特点:

1.由富含G的简单串联重复序列组成(长达数kb)。人的端粒DNA重复序列:TTAGGC。 2.端粒的末端都有一条12~16碱基的单链3?端突出。

端粒的作用:防止DNA末端降解,保证染色体的稳定性和功能

第二章DNA的复制、修复和重组

第一节DNA的复制(DNA Replication) 一、DNA复制的基本特性

1.半保留性(Semi-Conservative)Meselson-Stahl实验

2.双向复制(一般)复制起始点(origin)+两侧复制叉=复制单位(复制子,Replicon) 3.半不连续性(Semi-discontinuous)前导链(leading strand)-连续合成

随从链(Lagging Strand)-不连续,由岗崎片段(okazaki fragment)连接而成。 二、DNA复制必需的成份(真核生物)

1.染色体DNA复制必需三种核苷酸序列①复制起点②着丝粒③端粒。

2.RNA引物(RNA Primer),一般8~14nt,带游离3'-OH形成磷酸二酯键。 3.DNA解链酶(DNA Helicase),打开DNA双链。

4.增殖细胞核抗原(Proliferating cell nuclear antigen,PCNA),辅助催化前导链合成。 5.端粒酶(Telomerase),末端复制问题。

端粒酶负责染色体末端(端粒)复制,是由RNA和蛋白质组成的核糖核蛋白,其中的RNA成分是端粒复制的模板(因此端粒是逆转录酶)。作用:维持端粒长度。

端粒酶活性可用基于PCR的“TRAP”(Telomerase repeat amplification protocol)法测定(Kim,Netal.,science,266,2011~2014(1994) )。 端粒与细胞寿命。

端粒、端粒酶与肿瘤的关系:绝大多数恶性肿瘤具有端粒酶活性但端粒缩短,但也有约5%的肿瘤无端粒酶活性且端粒较长。

端粒酶作为新的肿瘤标志和肿瘤治疗靶点。 第二节DNA修复(DNA repair)

DNA修复是维持基因组完整性的重要机制,在保护基因组避免发生可能导致肿瘤或遗传疾病的突变中起关键的作用。

引起DNA损伤的因素: 1.细胞内源性损伤因素:

DNA复制错误;自发损伤包括碱基互变异构、碱基脱氨(C→U、A→I)和碱基丢失等;氧化代谢副产物如活性氧物质(Reactive oxygen species,ROS)的攻击等。 2.环境中的损伤因素:

辐射(含紫外线、X射线)产生胸腺嘧啶二聚体;化学致癌物(氧化脱氨,烷化剂或代谢活化物如苯并芘、黄曲霉素等产生碱基加合物)

一、碱基切除修复(Base excision repair、BER)

该途径中最关键的是必须通过一种糖苷酶(glycosylase)先除去变异碱基(如被氧化、烷基化或脱氨的碱基),该糖苷酶催化连接损伤碱基与脱氧核糖之间的糖苷键水解,释放游离碱基并在DNA中产生一个去碱基位点,然后由去嘌呤/去嘧啶(AP)核酸内切酶、DNA聚合酶和DNA连接酶等利用相对的一条正常链为模板进行修补合成。(T等于5-甲基U,C脱氨基生产U,5-甲基胞嘧啶脱氨基生成T。) BER途径中的重要糖苷酶:

(1)尿嘧啶DNA糖苷酶(UDG),从DNA中除去尿嘧啶碱基;

(2)3-甲基腺嘌吟(3MeA)DNA糖苷酶,可修复烷化剂产生的损伤; (3)负责修复DNA氧化损伤的糖苷酶(如Fpg/MutMDNA糖苷酶)

BER是修复内源性DNA损伤(自发水解、烷基化和活性氧攻击)的主要途径,因此对于降低自发突变的频率、防止肿瘤发生有重要作用。

二、核苷酸切除修复(Nucleotide excision repair,NER)

首先由多聚体复合物识别损伤,再在损伤的两侧进行切除。随着DNA链被解开,包含损伤的单链片段释放出来,留下的缺口由DNA聚合酶填补,DNA连接酶封闭。该途径包括20种以上蛋白,可以修复紫外辐射诱导的环丁烷嘧啶二聚体(CPD)和(6-4)光产物((6-4)PPs),以及一些化学物质产生的大加合物。