生物信息学实验指导2014-2015-1 - 解增言 - 图文 下载本文

生物信息学实验

(1)运行MEGA;

(2)将.aln文件转换成.meg文件:file -> Convert to MEGA Format,对话框中打开clustal比对好的序列,转换完成后,保存退出;

(3)打开.meg文件:File -> Open Data,找到刚才保存的.meg文件,选择是核酸序列还是蛋白序列;

(4)构建系统发生树:菜单Phylogeny -> Construct Phylogeny,然后可以选邻接法(NJ)、最小进化法(ME)、最大简约法(MP)或UPGMA法,在对话框中可以选择不同的模型,构建系统发生树。

(5)构建带检验值的系统发生树:Phylogeny -> Bootstrap Test of Phylogeny,再选上面四种方法。

四、实验报告

1.使用的软件/工具,实验步骤,结果文件记录/截图; 2.实验中遇到的问题,如何解决的。

五、参考文献

Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., Wallace

I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J. and Higgins D.G. (2007) ClustalW and ClustalX version 2. Bioinformatics 23(21): 2947-2948. Kumar S, Dudley J, Nei M & Tamura K (2008) MEGA: A biologist-centric software for evolutionary

analysis of DNA and protein sequences. Briefings in Bioinformatics 9: 299-306.

13

生物信息学实验

实验4 利用RNAfold预测RNA二级结构

一、实验目的

1. 了解RNA二级结构的概念;

2. 掌握用RNAfold预测RNA二级结构的方法。

二、实验原理

就核酸分子结构而言,DNA具有双螺旋结构,而RNA是单链结构。单链RNA的三维结构是由它的核苷酸序列决定的,这与蛋白质的结构由蛋白质的序列决定相类似。但是,RNA的结构并没有蛋白质的结构那么复杂。

RNA的结构可以分为三个层次,即一级结构、二级结构和空间结构。一级结构就是RNA的序列。二级结构是通过碱基互补配对而形成的,碱基对之间的氢键以及它们形成的螺旋堆积力起着稳定结构的作用,降低自由能。RNA的二级结构单元与蛋白质的二级结构单元很不一样。但在单链RNA中,由于配对的碱基出现在单个RNA分子中,因此就会形成碱基配对的茎区(stem region)。在RNA链中,为了形成这种碱基配对,需要反转链的方向,于是在反转处就会形成一个发夹环。如果RNA链上有很少的碱基没有相对应的互补碱基,那么就会形成一个小的突出部分或者形成一个较大的环状区(loop),即内环或者膨胀环。发夹环一般位于茎的末端,而内环或膨胀环使茎中断。图7.6是一个RNA的二级结构示意图,其中包括茎、发夹环、内环、膨胀环连续碱基配对等。 当RNA分子折叠时,有些碱基相互配对,形成螺旋区域或茎,这部分碱基具有负的自由能;而其它非互补的碱基处于自由态,形成单链或环,这部分碱基的自由能为正值。环区的存在使RNA分子的自由能升高,结构的稳定性减弱。因此,预测RNA二级结构的一种直接的方法是寻找最大数目的碱基配对。

通过确定常见RNA二级结构单元的位置,我们能够比较好地预测出RNA的结构。但是,伪结(pseudo knot)是RNA二级结构预测中最难预测的一种二级结构。在形成伪结的地方,环状区域内的碱基与环状区域外的碱基相互配对。由于伪结的预测比较困难,因此,许多早期的二级结构预测算法完全不考虑伪结,这些算法是在忽略伪结区域存在的前提下预测其它二级结构单元的。

可以用点矩阵作图的方法来寻找最大配对。将RNA的碱基序列顺序地排布在X轴上,对于配对的碱基在Y轴相同的位置打上点标记。设RNA序列的长度为n,根据序列建立一个n×n的矩阵R,如果第i个碱基与第j个碱基配对(如A?U、G?C),则 R[i,j]=1,否则为0。根据所得到的点矩阵图,可以找出最大配对。当然,这是一种非常简单粗糙的方法。

目前RNA二级结构预测有两种主要的方法,一是基于序列比较的方法,另一种方法是能量最小化方法。基于序列比较的方法主要是通过多重序列比对,根据相似序列具有相似结构的原理进行二级结构预测。

能量最小化方法在预测RNA分子二级结构时,试图对RNA折叠的自由能进行最小化,进而搜索最稳定的结构。该方法通过各种能量优化方法或者分子动力学计算评价所

14

生物信息学实验

有可能配对的能量,进而发现具有最小能量的结构。Zuker的Mfold程序是使用较多的程序包之一,它就是通过一系列的最近邻能量规则(nearest neighbor energy rules)来计算一个结构的能量。由于在这种方法中RNA结构被分成了许多相互作用的区域来进行评估, 而能量计算时仅仅计算那些被认为有可能产生相互作用的“邻居”碱基对之间的能量,因此这些规则被称为“最近邻”规则。最近邻能量规则认为:在标为环区的区 域内的所有碱基都有相互作用的可能,因此在计算这个结构的能量时就必须考虑这一环区内的所有的碱基对的能量。但在不考虑会出现伪结时,由于环区外的碱基与 环区内的任一碱基都不会构成碱基对,因此在最近邻规则下就不考虑外区内的碱基和环区内的碱基之间的碱基对作用。由于不需要考虑位于不同区的碱基间的相互作 用,计算的速度就得到了比较大的提高。

由于不考虑伪结,可以假设RNA二级结构总的自由能是所有结构元素(配对碱基、环)的自由能的总和,并且各个结构元素的自由能相互独立。这意味着在计算RNA二级结构自由能的时候,只要分别计算各个结构元素的自由能,然后加和,形成总的自由能。通过实验可以确定各结构元素的自由能函数。典型的自由能函数包括两个连续碱基对si与sj、si+1与sj-1所形成的自由能,由碱基si和sj界定的发夹环的自由能,由两对碱基si与sj、si’与sj’所界定内环的自由能。

基于自由能的二级结构预测的目标就是搜索一个合适的构象,使得在这种构象下总的自由能最小。这是一个优化问题,对于这个问题可用动态规划技术解决。

RNA是一种重要的生物大分子。RNA是DNA和蛋白质之间的一个中间语言,因此RNA二级结构的准确预测对于了解基因调控和蛋白质产物的表达具有重要的作用。另外,已经发现许多RNA本身具有酶的催化特性。现在,这些具有酶的催化特性的RNA被称为核酶(ribozyme),它们在tRNA分子的剪接、核糖体的活性以及真核生物hnRNA的处理中具有一定的作用。同时,它们还具有其它一些功能。总而言之,认识RNA的结构对于了解RNA的功能及其作用机制是非常重要的。

图4-1 RNA二级结构示意图

RNAfold是基于最小自由能的RNA二级结构在线预测工具。其地址为:http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi .

三、实验内容

1. 从NCBI上下载拟南芥LEC1基因的mRNA序列,与RNAfold预测其二级结构; 2. 用RNAfold预测大肠杆菌Met-tRNA的二级结构。

15

生物信息学实验

四、实验报告

1.使用的软件/工具,实验步骤,结果文件记录/截图; 2.实验中遇到的问题,如何解决的。

五、参考文献

Zuker M, Stiegler P. 1981. Optimal computer folding of large RNA sequences using thermodynamics and

auxiliary information. Nucleic Acid Res. 9(1):133-148.

16