机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 5081|回复: 0
打印 上一主题 下一主题

[转载]生物信息学名词解释与问答题

[复制链接]
跳转到指定楼层
楼主
发表于 2012-11-17 20:53:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 RockRabbit 于 2012-11-17 20:53 编辑

(一家之言,仅供参考)

1) 什么是生物信息学所谓的基本数据库,你所知的核酸、蛋白质、结构基本数据库有哪些?
答:生物信息学中的数据是指生物分子的信息,具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据(包括蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等)。所有类型的数据中,序列与结构是基本的数据,储存这些数据的数据库,就是生物信息学中的基本数据库。
核酸序列数据库:EBI的EMBL数据库、NCBI的GenBank数据库、日本国立遗传学研究所的DDBJ数据。这三者间数据共享,每天更新。
蛋白质数据库:SWISS-PROT蛋白质序列数据库、PDB生物大分子结构数据库、HSSP蛋白质二级结构数据库。
以上这些数据库是全世界分子生物学和医学研究人员获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己序列或结构测定结果的重要媒体。围绕这三大核心数据库还有众多面向各种特定应用的衍生数据库和分析软件,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释,而各种分析软件为挖掘这些数据提供了有力的工具。

2)什么是生物信息学所谓的二次数据库,你所知的核酸、蛋白质、结构二次数据库有哪些?
答:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库就是生物信息学中的二次数据库。
    二次数据库种类繁多,以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,克隆载体数据库Vector,密码子使用表数据库CUTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。

3)什么是生物信息学所谓的演绎数据库或知识库,你所知道的著名演绎数据库或知识库有哪些,分别解决那些生物学问题?
答:生物信息学中的演绎数据库(Deductive Database)或知识库(Knowledgebase)是指能对已有的生物大分子基本信息进行数据挖掘的数据库,它建立在基本数据库的数据基础之上。
比较著名的演绎数据库(系统)有:
KEGG(京都基因与基因组百科全书),里面包括代谢途径、生物系统功能等级、生物大分子互作等等信息,它可以从基因组及相关分子的信息预测细胞代谢过程与生物行为。
Swiss-Prot,它是一个蛋白质序列数据库,在整合其他数据库信息的基础上以较低的冗余度实现对蛋白质的评注功能,如功能描述、结构域、翻译后修饰、变体等等。

4)什么是生物信息学所谓的文献数据库,你所知道的著名的文献数据库是什么,如何运用文献数据库查找生物科学文献?答:生物信息学中的文献数据库(bibliographic database)含有大量的生命科学领域的文献资料,其来源为各种的杂志及期刊,是生命科学研究者的重要资料库。
其中一个著名的文献数据库是PubMed,其主要信息来源于Medline。PubMed是美国国立医学图书馆中生物医学及生命科学杂志文献的电子文档库,可在NCBI或PMC上通过用关键字及关键字间的各种逻辑组合(与/或/非)根据标题、作者、杂志名称及日期等检索相关的文献资料摘要及全文。

5)EMBOSS的全称是什么,它包含那几组生物信息功能,目前的版本有多少个程序可供选择运用?
答:EMBOSS全称European Molecular Biology Open Software Suite 。
EMBOSS是一个开放源代码的序列分析软件包,支持所有UNIX操作系统,是为分子生物学研究的特别需要而发展起来的。EMBOSS包括了大量蛋白质和核酸的分析工具,包括翻译、蛋白质结构域搜索、获取序列、比对、引物设计、限制性酶切谱分析等多种功能的。
    它整合了一些公共数据库,能够自动识别处理以不同格式存储的数据,甚至可以通过互联网提取数据,并且,因为该软件包同时提供了一个扩展库,它也是允许其他科学家依据自由软件精神编制、发布软件的一个平台。它同时将现在可以得到的一系列序列分析工具整合成一个无缝的整体。
EMBOSS套装包括约100个序列分析程序、一套核心软件库,还整合了其他可用的软件包,它们涵盖了如下领域:序列比对、序列特征的快速数据库搜索、蛋白基序识别(包括结构域分析)、EST分析、核酸序列特征分析(比如识别CpG岛)、简单的物种特异性重复的识别、小基因组的密码子使用频率分析、大范围的序列特征快速识别以及其他的工具。
(SCUT_Jason整理)
6)BLAST的全称是什么,NCBI的BLAST包含几个程序,分别在什么情况下使用?
答:BLAST全称Basic Local Alignment Search Tool 即“局部相似性基本查询工具”, 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。
    NCBI的BLAST包含以下几个程序:
程序名    查询序列       数据库    搜索方法
Blastn     核酸       核酸       核酸序列搜索核酸数据库中的序列
Blastp     蛋白质    蛋白质    蛋白质序列搜索蛋白质数据库中的序列
Blastx     核酸       蛋白质    核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
Tblastn    蛋白质    核酸       蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。
TBlastx   核酸       核酸       核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列翻译成的蛋白质序列逐一进行比对。

  7)全局比对和局部比对在算法语言、程序选择和用途上有什么区别?他们有什么共同点?
答:全局比对:可使用Needleman-Wunsch动态规划算法。
局部比对:使用Smith-Waterman算法
二者可使用FASTA程序包中的LALIGN程序进行。
当你想比较两条序列整体相似性时,可以对序列进行全局比对;而局部比对则可以找出两条序列间相似度最高的片段。
许多蛋白质在全局范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。由于全局比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,如果不恰当地使用了全程比对,这些序列段很可能会被一些完全不相关联的残基所淹没。
二者的共同之处在于他们的基本思想都是找出序列的相似性。

(SCUT_Jason整理)
(仅供参考)
8)BLAST中,E值和P值分别是什么,它们有什么意义?
答:BLAST中使用的统计值有概率p值和期望e值。
   E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
    p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。

9)什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么
答:PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。
PAM矩阵(Point Accepted Mutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
模块替换矩阵BLOSUM(BLOcks Substitution Matrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。

10)多重比对与双重比对有什么异同,最常用的多重比对工具是什么,它有哪些输出文档,分别有什么进一步用途?
答:不同点:双重比对是序列分析的基础,是指通过一定算法对两个DNA或蛋白质序列进行比较,找出两者之间最大相似性匹配,使多序列比对和数据库搜索的基础。多重比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个基本了解。
相同点:两者都建立在某个数学或生物学模型之上,都不能从他们的结果得到正确或错误的简单结论,而只能认为所使用的模型在多大程度上反映了序列之间相似性关系以及他们的生物学特征。
最常用的多重比对工具是Clustal W,它通过对序列的精确比对得出不同序列间相似性和差异度数据,输出的结果可以使用其他软件进行查看,生成直观的进化树。它还有图形界面版本Clustal X。
Clustal W有如下几个输出文档:
Output file(后缀为.output):显示该次多重比对的基本信息如序列名称、长度、每两序列之间比对的得分,还可依此进行排序,找出得分最高的序列对进行进一步分析。
Alignment file(后缀为.aln):显示多重比对的具体结果,可从中观察到序列间相似或保守的区域。
Guide treefile(后缀为.dnd):依据序列间的相似程度显示序列间可能的进化距离,并以此生成进化树,研究其进化关系。
Your input file(后缀为.input):里面包含用户输入的序列。
(SCUT_Jason整理)
11)为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构?
答:蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。
目前有三条途径用于从蛋白质一级序列预测其空间三维结构:
A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。
B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。
C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。

12)引物设计的基本原则有哪些,有哪些基本参数要考虑,最常用的引物设计软件是什么?
答:引物设计的基本原则:引物与模板的序列要紧密互补;引物与引物之间避免形成稳定的二聚体或发夹结构;引物不能在模板的非目的位点引发DNA 聚合反应(即错配)。
有如下这些基本参数要考虑:引物长度,产物长度,序列Tm 值,引物与模板形成双链的内部稳定性(用?G值反映),形成引物二聚体及发夹结构的能值,在错配位点的引发效率,引物及产物的GC 含量,等等。
最常用的引物设计软件是:Primer Premier.

13)你所知道或浏览过的著名系统生物学网站是什么,包括哪些主要内容?
答:NCBI(美国国立生物技术信息中心)。该网站具有NIH遗传序列数据库Genbank,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库每天交换数据。在该网站上,用户可通过检索系统Entrez搜索核酸序列,蛋白序列,大分子结构,全基因组等数据库,以及通过PubMed检索杂志文献。另外,该网站本身还带有一个序列相似搜索程序BLAST,作为鉴别基因与遗传特点的手段,它能在短时间内对Genbank数据库进行序列搜索。
    在这个网站上还有其他有用的信息:孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)等等。

14)什么是分子对接,什么是力场,在计算机生物大分子辅助设计中有什么作用?
答:分子对接是指两个或多个分子通过几何匹配和能量匹配相互识别的过程,在药物设计中有十分重要的意义。它计算把配体分子放在受体活性位点的位置,然后按照几何互补、能量互补以及化学环境互补的原则来评价药物和受体相互作用的好坏,并找出两个分子之间最佳的结合模式。
分子力场根据量子力学的波恩-奥本海默近似,一个分子的能量可以近似看作构成分子的各个原子的空间坐标的函数,简单地讲就是分子的能量随分子构型的变化而变化,而描述这种分子能量和分子结构之间关系的就是分子力场函数。分子力场方法的计算量比量子力学从头计算的方法少数十倍,而精度相差无几,因此对大分子复杂体系而言,分子力场法是一套行之有效的方法。
在计算机辅助的生物大分子设计中,特别是药物的设计中,分子对接方法主要用来从化合物数据库中搜寻与受体生物大分子有较好亲和力的小分子,从而发现全新的先导化合物。在这个过程中,需要用分子力场势能函数作为分子对接的评价函数。

15)用什么图形化软件使PDB的蛋白质原子坐标转化为图形可视化的空间结构?
答:使用Swiss PDB Viewer可使PDB的蛋白质原子坐标转化为图形可视化的空间结构。在该软件中,可以将两个以上的蛋白质重叠放置以进行结构比对,比较活性位点及其他相关部位,借助直观的图形及菜单界面还可以轻易地获取氨基酸残基的替代、氢键、键角及原子间距等信息。
另外KiNG Viewer、Jmol Viewer、WebMol Viewer、Protein Workshop、Rasmol Viewer等软件也能实现这个功能。
http://fluorin.blogbus.com/logs/8348230.html
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 19:53 , Processed in 0.065638 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表