生物信息学入门知识--浅谈（二）

xuanzhang · 发表于 2016-7-30 22:48:44

续一

第二章生物信息学研究内容之一（讲解几个经典课题）

一、大规模基因组测序中的信息分析
   基因组的拼接；基因的标注
   DNA测序仪：测出来是四种光密度，光密度越大说明碱基的含量越高，每个颜色代表一个碱基
   光密度采样（使光密度反应碱基的表达量）－－碱基读出（把光密度翻译成碱基的信息，哪个光密度代表哪个碱基）
tips：
测序前，克隆遗传密码－－繁殖－－测序
克隆时前面需要加一些载体（载体数据库），实际得到的序列比真正要的序列多，所以还要把之前加的载体序列切除（序列和载体数据库比对）－－得到一段一段的序列－－基因拼接－－拼接后还有很多洞，还要补洞－－－得到完整的样本－－基因标注（找出哪些是基因，哪些是其他的功能元件）
以上每一步都要用到信息分析

1、基因拼接（没有信息生物学家参与，无法完成拼接）
   举例：一本书，剪成方块，如何尽快拼出原来的书？
   方法1:买两本一样的书，一个剪成方块，一个剪成长条；在长度设置合理的情况下，反复比对长条和方块中的内容，拼出内容30%。
   方法2：买3本书，用三种方式撕，统计学家计算这种情况下最大拼出50％
   最后，统计数学家得出：5本书，可以拼出90%（拼接的覆盖率）
                                          10本书，可以拼出99%（10次测序，300亿美元，－2004）
tips：
人类基因组测序完全图（99%的覆盖率），遗留200多个洞

2、基因注释（真核生物：怎么发现外显子；原核生物：怎么发现基因）

方法1:基于信号
剪切位点：是内含子和外显子之间的边界，这个边界的序列有特征，它是有信号的）
任何一个编码序列都有起始密码子和终止密码子；起始密码子是个三联体，终止密码子有好几个，每一个又是个三联体
发现密码子，就意味着基因开始和结束

只使用信号的缺点：
1、信号太短，密码子只有三联体；由于序列太短，假信号比真信号多得多，信噪比差
解决：综合利用多种信息，多种方法
2、这个信号不是一个固定的，确定的模式；这个序列可能是一种可以稍加改变的模式，因此不能简单的用序列标定
   信号实际不是个序列，是个分布矩阵；根据该矩阵对序列进行打分，高于一定阈值的认为是真信号，否则，假信号
   分布矩阵是科学家经过大量数据计算得到的
信号：启动子，终止子；密码子；等

方法2:基于组成
（1）基于统计的办法
      三个碱基决定一个氨基酸
      如果是某段遗传密码是基因，那么这段序列按3个一组翻译后一定是一个蛋白质的一级序列；
      ：对决定蛋白质结构的氨基酸空间序列一定不是20种氨基酸残基的平均分布
      ：对蛋白质氨基酸的组成分布进行统计，真正的蛋白质中氨基酸分布是有规律的
      从第一个碱基开始读，得到一个氨基酸序列；从第二个碱基开始读，得到一个；从第三个碱基开始，得到一个；
      若是基因：这三个序列中一定有一个很符合正真蛋白质的氨基酸分布规律，另外两个很不符合
      该方法，成功准确率很低（约50%）
（2）基于序列比对的办法
         现有的数据库中已经存在千千万万个已经发现的基因，如果你得到一个新的序列，拿到数据库里去两两比对
      两个序列比较，使用动态规划算法，可以得到严格解；时间复杂度较高，实际工作中用其简化算法
      简化算法：blast算法(basic local alignment search tool)；fasta算法
      ：是实验室工作的开始（得到一条序列）
      该方法，无法发现新的基因
（3）神经网络的方法
      目的：区别不同特征（区别外显子和内含子）
      BP方法：输入层；输出层；中间层
      输入的序列包含奇数个碱基；输出为0，1:判断序列中间的碱基是否编码基因；
      通过将序列左移或右移，依次判断每个碱基的情况
      实际成功率：大约63％
      练习：编程实现一个三层的神经网络
      tips：
      外显子和内含子交界处是有信号的：外显子5’端有一个二联体GU，3’端有AG
      但是仅通过二联体判断, 信息量太少，信噪比极高
（4）分维的方法（fractal dimension非线性、物理方法）
      曲线的维度一定比一大比二小
      具体方法：把一个序列投影到二维碱基平面变成一条曲线，计算曲线的分维值；基因序列和非基因序列的分维值有明显差异，即可用来区分
      具体投影过程如下：四个坐标方向分别代表四种不同碱基

（5）复杂性的方法（数学家）
      把复杂性作为判据，来帮助理解是否编码序列和非编码序列有所不同
      任取一段序列，数一联体出现的频次，二联体的频次，三联体的频次，加和，所得值为该序列的复杂度
      实验结果：在序列长度大于18后，复杂性结果成稳态；编码序列的复杂度会更高

（6）密码学的方法
      一致指数（coincident index）：指数越高，说明此处有信息
      修改密码学的公式，得到计算碱基的一致指数公式
      具体方法：计算序列的一致指数高低，如高，则认为是编码序列
      方法的准确率约为70%
   实际使用中，是多重方法共同判断，得出可靠性更高的结果

多序列比对（都是近似办法，没有精确办法）

tips：
BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的计说明。BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。至于如何进行,你先进入NCBI,然后点BLAST,选择你所需要的BLAST的类型,然后输入你要BLAST的序列,就可以看到与你所输入的序列的同源性序列了

3、遇到的问题与挑战
大问题：重复序列对于大规模基因组破译的影响
解决思路：对于人类基因组，用已经找出的独特的基因片段（唯一的marker），分片时每片包含一个marker；对于其他没有marker的其他物种基因组，首先过滤重复序列，之后对剩下的独特序列进行拼接，就能避免重复序列存在带来的拼接错误，与此同时，基因多出现在独特序列中，较少出现在重复序列。因此，以上处理过程基本可以拼接出包含基因的序列。
小问题：可变剪切所带来的蛋白质多样性的识别问题
有些大基因，可能包含很多（几十个）外显子，在成熟的过程中可以组合不同的外显子，组成蛋白；所以同一个基因，由于可变剪切的关系，会表达为不同的蛋白；这是从基因到蛋白遇到的一个复杂的问题。如何识别可变剪切的真实的蛋白产物？
由于外显子的多样性和可变剪切，使得一个基因可产生多种蛋白
（ 1、基因组拼接中的重复序列处理；2、基因标识的准确率；3、基因的可变剪接；4、蛋白质的空间结构和功能预测）

4、举例
（1） T. tengcongensis Complete Genome Analysis（腾冲耐热菌，微生物所在腾冲温泉中发现的）
   中国破译的第一个微生物的完整基因组（微生物所，基因组所，华大基因）
   选择生物的原因：希望是耐热菌（跟生物起源有关，提升基础研究的价值）；发现耐热的酶；预估的基因量最小（300万碱基，300万人名币）；名族情怀（是中国发现的，中国人定名的）
   ：环状DNA,
   发表在基因组研究（是基因组研究的顶级期刊）
   得到基因组后的研究工作：
   找相似的细菌；
   研究腾冲细菌能实现的生物功能（更功能pathway图进行比对判断即可）；
   耐热菌的耐热功能可能需要基因表达特别的蛋白来实现
   耐热性哟求：ran（跟造蛋白有关）的要求CG含量高，稳定
tips：
微生物由于功能简单，90%是基因，10%是非编码序列；而人类序列中，只有3%是基因，97%是非编码序列；
高AT含量的序列很不稳定，是脆弱的（CG三个氢键链接，AT两个氢键链接）

二、SNP的发现与鉴定
1、基于哪些数据可以帮助我们发现新的基因？
（1）基因组DNA的序列数据库：在序列中识别编码序列（拼接，组装，标示）
（2）EST(expression sequence tag：表达序列标签)数据库(dbEST:http://www.ncbi.nlm.nih.gov/genbank/dbest/)：把归属于同一个基因的est序列接在一块（去噪，拼接）
   EST 是完整mRNA中的一小段,本身就是要表达的一段基因
   人类EST数据已经发展到超过1000万，人类实际有2万5千个基因，每个基因有10倍左右的覆盖度，所以科学家估计这些数据已经覆盖了95%的人类基因；利用好EST数据就能的到基因（组装、拼接）；
   作用：发现基因；发现SNP;发现这个基因是否存在可变剪切；发现非编码RNA
   有效性：大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因，大约 60％是通过信息分析得到的。
   ：国际上现已出现了几个基于EST的基因索引如UniGene (ftp://ncbi.nlm.nih.gov/pub/schuler/unigene) ,  Merck-Gene index(http://genome.wustl.edu/est/esthmpg.html ) , GenExpress-index（ http://www..cshl.org ) ，这些基因索引数据库(即二次数据库)构建了基因框架，极大地方便了相关研究者
   原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的(随机的)，所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列
   实际应用：若你在实验室发现了一段核酸序列，可以送到数据库中进行比对（选择在EST中比对），之后不断拼接，找不到一样的之后，可能会得到基因；拼接时，寻找重合段的长度为40（国际推荐overlap值为40，低于30时，很容易接错），即40个完全一样的；两端剩余的未重合的部分长度不大于10（否则，认为该序列本身不够可靠）；以上过程也叫基因电脑克隆（以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌）
   应用流程：
   （1） EST数据库质量相对较低因此在进行Contig电脑组装之前，需要探测并去除EST数据库中的污染序列

		自动登录	找回密码
密码			注册

生物信息学 入门知识--浅谈（二）

浏览过的版块

生物信息学入门知识--浅谈（二）