生物信息学课后题及答案 下载本文

生物信息学课后习题及答案

(由10级生技一、二班课代表整理)

一、绪论

1.你认为,什么是生物信息学?

采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋

白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗? (1)主要用于:

在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分 子进化、蛋白质结构预测等

在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系? 人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作 。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。 2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。 2004,人类基因组完成图公布。

2.我国自主知识产权的主要基因组测序计划有哪些? 水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010)

二.第一章

1、生物信息指哪些?

主要有从DNA序列、蛋白质序列、蛋白质结构和功能研究中解读的:遗传信息、进化信息、结构和功能信息。

2、基因组测序的基本策略有哪些?

逐个克隆法:小片段针对图谱的!! 全基因组鸟枪法:大片段-测序-组装

3.什么叫contig?

Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。

4、生物信息学中最重要的贡献是什么?

1970: Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;

5、什么事件大大促进了生物信息学的发展? 20世纪90年代后

HGP促进生物信息学的迅速发展

6、生物信息学研究有什么意义?

(1)认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系

(2)改变生物学的研究方式

(3)改变传统研究方式,引进现代信息学方法 (4)在医学上的重要意义

为疾病的诊断和治疗提供依据 为设计新药提供依据

三.第二章 1、简述三干六界学说。

2.TSS,外显子和内含子的概念。

TSS是转录起始位点(Transcription Start Site)的英文缩写,是指DNA上一段与RNA聚合酶结合并起始转录的一段DNA序列。真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因。其中的编码区即为外显子,非编码区即为内含子。

3. 如何判断起始密码子?内含子?

AUG甲硫氨酸(met) 内含子(5’-GT??AG-3’)

4.蛋白质二级结构有哪些? (1)螺旋

(2)b折叠 – 平行折叠 反平行折叠

(3)b转角 – 连接作用”U”型结构(大多Phe, Gly组成)

(4)无规卷曲-没有确定规律性的肽链构象,但仍是紧密有序的稳定结构 (5)无序结构 多肽链中有60%的区段为a螺旋和b折叠

5、HGP选择作为研究人类的四大“模式生物“有哪些?

酵母、线虫、果蝇、小鼠。

6、背诵生物信息数据库中的核苷酸代码?

核苷酸A(腺嘌呤)C(胞嘧啶)G(鸟嘌呤)T(胸腺嘧啶)非A非C非G非T代码ACGTBDHV核苷酸U(尿嘧啶)C或T(U)G或T(U)A或T(U)A或GA或CG或CA或C或G或T(U)代码UYKWRMSN

四.第三章(1)

1、下列数据库分别是什么类型的数据库?

序列数据库中的核酸数据库(GenBank PIR DDBJ SWISS-PROT EMBL) 结构数据库(PDB)

2、如何查找由Rao Y 实验室于2005以后发表的,文章主题中与brain有关的文献,写出检索语言。

Brain[ti] AND RaoY[au] AND 2005:2013[dp]

3、如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的? 正确①Rao Y[au] AND (Nature[Journal] OR Science[Journal])

②Rao Y[au] AND Nature OR Science[Journal]

③Rao Y[au] AND Nature[Journal] OR Science[Journal] ④Rao Y[au] AND (Nature OR Science)[Journal]

五.第三章(2)

1、简述GenBank数据库中GBFF格式的结构?

GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾.

2、GBFF格式的特性表格式包括哪三个部分? 特性表格式包含三个部分:

第一,特性关键词(Feature key); 第二,特性位置(Location); 第三,限定词(Qualifiers)

3、指出下列特殊标识符的格式? ①序列辨认号(GI):一串阿拉伯数字 ②GenBank/EMBL/DDBJ序列接受号:

1个字母+5个阿拉伯数字;1个字母+6个阿拉伯数字 ③RefSeq序列接受号:带“-” mRNA记录(NM*);完整的基因组或染色体(NC*) ④PDB序列接受号:1个阿拉伯数字+3个字母

4、指出下列GBFF格式中特性表含义?

(23.45)..600 指明序列特征起始碱基在23和45碱基之间,终止于600号碱基 145^177 指明145和177碱基之间的某个位点

Complement(join(2691..4571,4918..5163)) 纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上

六.第四章

1、这两个序列的cost 和score分别是多少? (A)cost 2 score 9 (B)cost 4 score 6

2、在序列比对运算时最终结果是上面哪种运算方式?(A)

3、给定一个DNA打分矩阵,假设空位罚分为2,按照以下的打分矩阵,对于下列对齐方案的计分值为多少?

AATCG1-1-1-1T-11-1-1C-1-11-1G-1-1-11GCGACTCTAGAGAC * * * * ** * * * * *GG

0 0

4、判断题:

(1)A序列和B序列的相似性是80% 对 (2)A序列和B序列的一致性为39.4% 对 (3)A序列和B序列的同源性是80% 错

(4)两序列间的相似性越高。它们的同源性就越高 错

5、名词解释:

(1)同源性:两个基因或蛋白质序列具有共同祖先的结论; (2)直系同源:(Orthologous ):指不同物种中具有相同功能和共同起源的基因 (3)旁系同源(Paralogous ):指在同一物种内具有不同功能,但也有共同起源的基因。

空位罚分:在一条序列的残基间引入一个空位使得这条序列与第二条序列的相似残基对齐,引入空位的一个数值罚分(分值)称为空位罚分。每个记分矩阵都有默认的空位罚分值

(5) 空位开放罚分:(Gap opening penalty)对起始缺失进行罚分 (6) 空位延长罚分:(Gap extension penalty) :当加入一个空位至已存在的空位

时的罚分,使得大于一个残基不能对齐或者和空位对齐。

(7)PAM:代表可接受点突变,每一百个氨基酸中可接受的点突变。

⑻PAM1(1个PAM单位)被定义为每100个残基出现1个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)

(9)PAM250矩阵:这个矩阵是指平均100个残基上固定会发生250次突变。也就是很多残基都发生过一次以上的突变。这种变化数量接近于检测遥远关系的极限。

(10)BLOSUM矩阵:BLOSUM矩阵:块替换矩阵,一种氨基酸替换矩阵,以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的,BLOSUM矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建。

6、简述PAM矩阵与BLUSUM矩阵的关系 (1)两者都在打分系统中使用对数比值; (2)PAM矩阵是基于近相关蛋白家族数据的,并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。BLOSUM矩阵是基于实际观测到的远相关蛋白比对。 (3)高值BLOSUM矩阵和低值PAM矩阵最适合于研究高度保守的蛋白;低值BLOSUM矩阵和高值PAM矩阵最适合检测远相关蛋白。

(4)一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好。对于数据库搜索来说一般选择BLOSUM62矩阵。PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域。

7.如何选择合适的评分矩阵? 一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好

当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 对于数据库搜索来说一般选择BLOSUM62矩阵

PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域

8.掌握下列概念(英文对照):相似性、一致性、同源性、直系同源、旁系同源、空位罚分、

空位开放罚分、空位延长罚分、PAM、PAM1、PAM250、

9.打分矩阵有哪些? (1)核酸打分矩阵:

等价矩阵、BLAST矩阵、转换-颠换矩阵 (2)蛋白质打分矩阵:

等价矩阵、氨基酸突变代价矩阵(遗传密码矩阵GCM)、疏水矩阵、PAM矩阵、BLOSUM矩阵。

(4)

1、 序列比对分类有哪些? A、双序列比对:两条序列的比对

B、多序列比对:三条或以上序列的比对

2、简述序列比对两种类型。

(1)全局序列比:在全局范围内对两条序列进行比对打分的方法,适合于非常相似且长度近似相等的序列

(2)局部序列比对:一种寻找匹配子序列的序列比对方法,适合于一些片段相似而另一些片段相异的序列

3、双序列比对方法有哪些?

① 点阵序列比较(Dot Matrix Sequence Comparison) ② 动态规划算法(Dynamic Programming Algorithm) ③ 词或K串方法(Word or K-tuple Methods)

④ 贝叶斯统计方法(Bayesian Statistical Methods)

4、Basic BLAST有哪些?它们的查询序列类型和数据库类型是怎样的?

5、什么是动态规划算法?

动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决,在序列比对尤其是双序列比对中非常重要,因为其提供了序列间最优的对位排列。在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)。

6、如何处理BLAST后过少或过多的结果?

如何处理过多的结果:限定数据库:Refseq;限定生物体;利用序列的特定部分搜索;调整打分矩阵;调整E值。处理过少的结果:去掉数据库限定,进行多个数据库搜索;提高E

值;尝试更高的PAM矩阵和更低的BLOSUM矩阵;去掉物种限制;进行高级比对搜索。 7、如何进行BLAST结果显著性判断?

结果显著性判断:查看E值列表;查看比对情况。(1.E值是不是显著;2.两个蛋白质是不是具有近似的大小;3.两个蛋白质是否有共同的模体或信号序列;4.两个蛋白质是不是一个合理的多序列比对的一部分;5.两个蛋白质是否有一个相似的生物学功能;6.两个蛋白质是否具有相似的3维结构。7.如果一个BLAST搜索得到一个对另一个蛋白质的边缘匹配,以这个具有较远亲缘关系的蛋白质作为查询项再进行一次新的BLAST搜索。)

8、BLAST应用有哪些?

BLAST应用:1.是序列分析的基础;2.评价实验结果;3.为实验提供新思路,并指导进一步实验设计;4是寻找和鉴定新基因的重要手段;5.是蛋白质结构预测和分子设计的基础;6. 是研究生物进化和种属分类的基本方法。

第五章

1.什么是系统发生、系统发生学、系统发生树?

答:系统发育(种系发生、系统发生):指生物形成或进化的历史;

系统发育学:研究物种之间的进化关系,基本思想是比较物种的特征,并认为特征相似的物

种在遗传学上接近。研究结果往往以系统发生树(系统发育树)表示,用它描述物种之间的进化关系。 通过对生物学数据的建模提取特征,进而比较这些特征,研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果更加科学、可靠。系统发生树是一种表现形式,是对一组实际对象(如基因,物种等)的世系关系的描述,是表明被认为具有共同祖先的各物种相互间进化关系的树形图。。统发生树系的性质:如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;如果找不到可以作为树根的单元,则系统发生树是无根树;从根节点出发到任何一个节点的路径指明

进化时间或者进化距离。

2.下列哪些位点是信息位点?(2和5)

位点 简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。

位点 1 C 2 A 3 G 4 G A C T 5 T C T C 6 A A A G 1 序列1 序列1 位点 1 G C A 序列2 序列1 G C G 序列3 序列4

T G G

3.系统发生树的构建方法有哪些?

答:系统发生树的构建方法分为两大类:

基于距离的构建方法: 非加权组平均法(UPGMA) 邻近归并法(NJ,邻接法) Fitch-Margoliash法(FM) 最小进化方法(ME) 基于离散特征的构建方法:

最大简约法 (MP) 最大似然法 (ML) 进化简约法 (EP)

相容性方法 (compatibility)

4.下列系统发生树建立的方法中,基于离散特征分析的是?(C/D)A. neighbor-joining method B. UPGMA

C.Maximum parismony D.Maximum likelihood

基于距离的是?(A/B)