生物信息学实验
实验5 Pfam蛋白质结构域分析
一、实验目的
1. 了解多序列比对的原理和用途;
2. 掌握ClustalX和ClustalW软件的使用。
二、实验原理
结构域是蛋白质中的一类结构单元,是构成蛋白质三级结构的基本单元。 有些球形蛋白的一条肽链,或以共价键相连的两条或多条肽链在空间结构上可以区分为若干个球状的子结构,其中的每一个球状子结构就被称为一个结构域。
同一个蛋白的各个结构域之间是以肽链相互链接的,而链接两个结构域的绝大多数都是单股肽链,只有在极个别的情况下会有少数的双股肽链联系不同的结构域。在X-射线衍射实验绘制的电子密度图中,可以清楚地看到有些球状蛋白地的部存在一些裂隙,这些裂隙就是各个结构域之间的链接部分,结构域之间的链接虽然是松散的,但他们仍然属于同一条肽链,靠肽链链接这一点和蛋白质的各个亚基之间依靠非键相互作用维系结构有着本质的区别。
结构域在空间上具有临近相关性即在一级结构上相互临近的氨基酸残基,在结构域的三维空间结构上也相互临近,在一级结构上相互远离的氨基酸残基,在结构域的空间结构上也相互远离,甚至分别属于不同的结构域。
结构域与蛋白质完成生理功能有着密切的关系,有时几个结构域共同完成一项生理功能,有时一个结构域就可以独立完成一项生理功能,但是一个结构不完整 的结构域是不可能产生生理功能的。因此结构域是蛋白质生理功能的结构基础,但必须指出的是,虽然结构域与蛋白质的功能关系密切,但是结构域和功能域的概念并不相同。 Pfam是最权威的蛋白质结构域数据库,最新版本是27.0,包括14831个PfamA结构域(经过人工注释,质量较高)及超过20000个PfamB结构域(计算机自动注释)。Pfam提供在线的蛋白质结构域搜索,其网址为:http://pfam.janelia.org/ 。
图5-1 Pfam蛋白质结构域分析结果
三、实验内容(步骤)
利用Pfam分析拟南芥LEC1蛋白质的结构域信息。
四、实验报告
1.使用的软件/工具,实验步骤,结果文件记录/截图;
17
生物信息学实验
2.实验中遇到的问题,如何解决的。
五、参考文献
Punta M, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G, Clements J,
Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. 2012. The Pfam protein families database. Nucleic Acids Res. 40(Database issue):D290-301.
18
生物信息学实验
实验6 利用PSSpred预测蛋白质二级结构
一、实验目的
1. 了解蛋白质二级结构的概念和不要类型;
2. 掌握PSSpred在线蛋白质二级结构预测工具的使用。
二、实验原理
蛋白质结构按照不同的组织层次可分为一级结构、二级结构、三级结构和四级结构。一级结构指蛋白质序列;蛋白质二级结构(secondary structure of protein)指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角和无规卷曲。常见的二级结构有α-螺旋和β-折叠。二级结构是通过骨架上的羰基和酰胺基团之间形成的氢键维持的,氢键是稳定二级结构的主要作用力;三级结构及空间结构;有多条肽链的蛋白质还有四级结构。
蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(?螺旋、?折叠和转角),并且各种二级结构非均匀地分布在蛋白质中。有些蛋白质中含有大量的?螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的?螺旋,如铁氧蛋白;有些蛋白质的二级结构以?折叠为主,如免疫球蛋白。二级结构预测的目标是判断每一个氨基酸残基是否处于?螺旋、?折叠、转角(或其它状态)之一的二级结构态,即三态。至今人们已经发展了几十种预测方法。
蛋白质二级结构的预测开始于20世纪60年 代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构 预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常 为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对?折叠预测的准确率仅为28?48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是?折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对?折叠的预测准确率有较大的提高,预
19
生物信息学实验
测结果与实验观察趋于一致。
一般75%的 氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改 变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残 基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以 得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(?,?,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。
各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用哪一种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础。例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。
三、实验内容(步骤)
利用蛋白质在线二级结构预测工具PSSpred预测拟南芥LEC1基因蛋白质的二级结构。
四、实验报告
1.使用的软件/工具,实验步骤,结果文件记录/截图; 2.实验中遇到的问题,如何解决的。
五、参考文献
孙啸. 2005. 生物信息学基础. 清华大学出版社. PSSpred. http://zhanglab.ccmb.med.umich.edu/PSSpred/
20