生物信息学复习整理 下载本文

局部比对的主要优点与用途:

高灵敏度地发现短的保守序列、结果更具生物学意义、计算量小速度快

整体比对:用于发现两个序列整体水平上的相似性;要求:比对的序列长度较一致;主要用途:进化分析、蛋白质三维结构或折叠方式

打分矩阵:全局比对(global alignment):空位罚分没对空位出现的位置不加区别(空位:序列中间、序列两端)

准全局比对打分矩阵:空位:-1,失配:-1,匹配:+1,两端空位:0 局部比对打分矩阵:空位:-1,失配:-1,匹配:+1,两端空位:0 小于零时归零,回溯重建比对,直到遇上零为止 19、相似性与同源性

同源性:从某一共同祖先进化而形成不同的序列

相似性:DNA碱基or蛋白质中aa相同序列所占比例的高低

同源性(homology):定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。 相似性(similariy)::定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。 20、序列比对的主要应用

1. 通过数据库的搜索,找出相似的序列,有助于确定其功能

2. 多序列比对,能够发现特定基因家族的保守区段,找到同源克隆基因,并且能够对基因的功能结构域进行分析,还能够对其进化水平进行比较分析

1)数据库搜索-----序列比对最常见的用途

通过对海量序列的数据库的搜索,找出与特定序列相似的那些序列。

2)多序列比对:发现特定基因家族的保守区段;同源克隆基因;基因功能结构域分析;分子系统发生分析(生物进化)

21、BLASTN, BLASTP, BLASTX, tBLASTN, tBLASTP

blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。 blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。

tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。

tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

5

22、分子钟

蛋白质同系物的替换速率在数千万年的跨度上面是保持恒定的,因此将aa的匀速变异现象比作分子钟。

而且,同类的基因间的aa替换率几乎完全一致,而不同类gene间的aa替换率却差异显著

蛋白质同系物的替换率,在几百万至几千万年的时间跨度上是基本保持恒定的,因此将氨基酸的匀速变异现象比作分子钟。 基本规律:(1)不同类的基因间的氨基酸替换率的存在显著差异

(2)同类的分子进化速率则几乎完全一致,同源蛋白质的差异取决于它们独立分化的时间 23、有根树

不仅能够明确地显示节点之间的相互关系,还能够确定某个节点为其他所有节点的共同祖先,能够看出进化的方向

不仅明确节点之间的相互关系,同时确定哪个节点是其他节点的共同祖先或最早从共同祖先中分化出来的。(包含进化的方向信息) 24、无根树

只显示了点与点之间的关系,而没有确定某个共同祖先以及点之间的进化关系

25、外类群

利用已有的进化信息,人为引入某已知、且与被分析群体进化关系最远的基因序列或物种,辅助寻找“根”

26、确定树根的主要方法

外类群法、中点法(最远进化距离两者的中点)、倍增基因法(引入一个同源的基因) 27、进化树构建的数据种类

特征数据:描述性、定性的数据,如:个体颜色、对某种刺激的反应时间 距离数据:两个可衡量差异的数据,定量、离散,如:DNA、蛋白质序列数据

特征(characters)数据:存在有限不同状态的特征描述性、定性(包括:来自解剖学、生理、行为学研究的数据,如:个体颜色、对某种刺激的反应时间等)

距离(distances)数据:两个数据集之间具有可衡量的差异。定量、离散的特征(以DNA、蛋白质序列数据为主)

28、进化树构建的主要方法、各自的原理及优缺点

6

距离建树方法:利用双重序列比对的差异程度进行建树;

最大简约法:进化往往会走最短的路-----DNA序列发生的碱基替换数量最少 最大似然法:进化会走可能性最大的路

1)距离建树方法(非加权组平均法UPGMA,相邻归并法Neighbor-joining, NJ(优点:快速),Fitch-Margoliash(FM)( 优点:允许OTU(操作分类单位)间存在不同的进化速率)) 原理:根据双重序列比对的差异程度(距离) 优点:使用序列进化模型、计算强度较小 缺点:屏蔽了真实的特征符数据。 2)最大简约法

原理:最能反映进化历史的树具有最短的树长(tree length),即进化步数(性状在系统树中状态改变的次数)最少。即:DNA序列发生的碱基替换数最少。 3)最大似然法

原理:首先选定一个进化模型,计算该模型下,各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。即一个树的似然性(likelihood)等于每一个性状的似然性之和或每一个性状的似然性对数之和。

优点:完全基于统计,在每组序列比对中考虑了每个核苷酸替换的概率,使用越来越普遍 缺点:计算量非常大,缺乏普遍适用的替换模型(不同的替换模型给出不同的结果) 系统进化树构建总结:

方法 原理 要求 优点 缺点 计算支长 距离法 数学 进化速 计算快 不能同时 能

度相同 充分考虑 分析不同

不可见突变 类型的数据

MP 特征 序列差别 正确性 受长支 不能

小,较长 效率兼顾 效应影响 (几Kb)

ML 特征 得到正确 计算量大 能

统计 / 进化树的

可能性较高 29、进化树质量评价的主要方法

重复取样法和整体评价法

重复取样法:重复取样(自举法和折刀法)进行重复取样, 整体评价法:采用一致性指数lc=R/L R为性状可能变化的最小值 L为给定系统树的最小进化步数 Lc越大,则系统树越可靠

重复取样法:评价系统树中每一分支的可靠性,统计学上用重复取样来排除随机误差的影响。(包括自举法和折刀法)

整体评价法:一般用于一致性指数(consistency index,Ic)和保持性指数(retentionindex,Ir)来

7

衡量。Ic=R/L

R: 所有性状的范围的总和,即性状可能变化的最小值。 L: 给定系统树的最小进化步数。

Ic越大: 则同塑性的比例越小,系统树越可靠。 30、domain, fold, motif31、蛋白质的各级结构的定义

Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质的一部分,但有时候也泛指蛋白质序列的一部分。

Fold: 蛋白质基本三维结构,包括:(1) 二级结构元件(2)元件之间的顺序连接(3)元件之间的相对空间位置

Motif:模体,在DNA或蛋白质序列上保守的短片段,或蛋白质结构上普遍存在的保守立体结构元件。

一级结构:氨基酸序列;

二级结构:局部多肽链借助氢键排成特有的规则结构;如α螺旋,β-折叠等等

三级结构:由远程肽段折叠而产生,一般指多肽链的独立折叠单位经多重盘绕、折叠形成由各种次级键维持的球状结构。简单蛋白质的三维空间结构,或复杂蛋白质亚基的三维空间结构。

四级结构:由若干亚基组装成复杂蛋白 32、蛋白质二级结构预测方法根据其原理分类

所谓基于统计即:对不同aa在不同二级结构中出现的频率进行统计 基于知识即:根据理化性质对其进行规则制定以及预测 33、蛋白质家族、蛋白质超家族

蛋白质家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成员之间的序列相似性超过40-50%以上,进化上可能共同起源于同一祖先蛋白)。主要是从量上面讲,即序列相似性很强的一系列蛋白质

蛋白质超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成员之间的几乎不存在序列相似性,但在结构组成上有相似的折叠模体构成。主要是从性上面讲,即序列功能、结构很相似,但序列却不相似的一类蛋白质 34、蛋白质三级结构预测的主要方法

8