生物信息学入门知识--浅谈（四）

xuanzhang · 发表于 2016-7-30 22:58:41

续三

第四章生物信息学研究内容之三（最近两三年，该领域最热和最值得关注的问题；最重要的研究方向和国际上在做什么）
一、系统生物学的出现与发展
   重要科学家：Dr.leroy hood
   基因组研究的三个阶段：
      1、测序基因组（得到基因组的静态序列）
      2、功能基因组（得到遗传密码在特定组织特定时间的表达情况）
      3、系统生物学（通过特定基因的表达模式构建出生命活动的基本单位）
   系统生物学：整合所有来自各个层次的资料数据(搜集数据)－> 用海量数据建立生物活动的模型（建立模型）－> 预测正常生命活动未来的发展以及对外来刺激的反应（预测行为）
后基因组研究对象的多层次：
      基因组－转录组、蛋白质组、相互作用组、定位组（比如蛋白质分布在不同位置，如核糖体，等）、折叠子组、代谢组、表型组
   系统生物学本质：
      分子生物学(1维)：序列（有基因）－> 结构（蛋白折叠）->功能
      系统生物学（2维）：多种生物大分子共同作用－>形成网络－>功能
   系统生物学：两类参量（生物分子和分子间的相互作用）-- 形成网络 -- 构建生物活动的基本单元
   系统生物学的研究示例：
   1、病毒的调控过程
   2、半乳糖代谢通路研究
   3、心脏建模
   功能基因组发展趋势：
      更好整合生物过程不同阶段的分散数据（基因组+转录组+蛋白质组+代谢组）；对复杂生物过程的更好的模拟；生物过程动态研究
   系统生物学的研究思路：（信息整合）多信息融合构建功能图谱；
   系统生物学研究方法的创新点以及研究方法：
      生物复杂系统的突显性规律，如钙波（不是简单的子系统的加和）；功能基因组多层次系统的贯穿特性；系统和系统，层次和层次的互相作用
      方法：支持向量机；主成分分析；功能子系统的建模；多信息融合
      应用：肿瘤研究
二、生物网络
1、生物大分子相互作用
   举例：蛋白相互作用；DNA与蛋白；
   目前有二十多种手段（27种）可以得到蛋白相互作用数据，如MS测序质谱技术、酵母双杂交技术；方法的准确率不高，所以确定的数据得到不易，至少要两种方法同时确认
   陈院士实验室工作：
   （1）用图论的方法，把蛋白网络转化为图，从而避免了极端稀疏矩阵的问题；使用谱分析方法（有相互作用的点被不断拉近，否则相互排斥，距离变远），需要证明方法收敛
   Spectrum Analysis algorithm

   产生团结构，团内元素的相互作用远大于团之外的相互作用
   产生二面图，两个集合间的所有元素之间相互作用较强，集合间元素相互作用稀疏

      实验结果解释：在完全没考虑生物背景的情况下：团1都是核糖体蛋白、团4是参与蛋白的可变剪切
   （2）clustering tree: 受上一个方法结果的影响（团）－> 考虑聚类的方法
2、基因表达调控网络（有向图）
   定义：一组调控因子如何调控一套基因表达的过程；其中元素包括cDNA,mRNA,NcRNA,蛋白，小分子

   尖头表示增强；末端断线表示抑制；基因调控存在自调控
   陈院士实验室工作：转录调控
   转录模式：一个转录因子调控多个基因的转录；两个转录因子同时调控两个基因的转录；多个因子调控一个基因的转录
3、代谢网络
   元素：代谢物；边：代谢物之间的反应
   陈院士实验室工作：通过构造进化树的方法解决问题
4、信息传导网络

二、非编码序列，非编码RNA，非编码基因
基因1911：是传递遗传特征的元件
基因组1920：一个物种基因的组合；现在看来，基因组远大于一组基因的总和，基因组包含4大类元件（基因，调节元件（启动子，增强子，抑制子，等），与整个基因组复制相关的元素（端粒，复制起始位点），非功能序列）
基因组构成：基因和可调节源（基因前的启示序列）占2%；非编码序列占98%（20％左右的intron（基因的内含子），10%卫星DNA（satellite），2%小微型DNA，40%的重复序列（可迁移源），1%假基因，25%什么都不属于的非编码非重复的序列）
SNP（表现生物之间的差异）：98%的SNP分布在非编码序列
1、非编码序列（基因组水平上的）：为编码蛋白质的序列（占97%）；基因组上不编码基因的序列
   重复序列有两种：串级重复（重复单元链接在一起，如，CACACACACA）：微型DNA，小微型DNA；散在重复（重复是不连接在一起的）：ALU家族，SINE
2、非编码RNA（RNA层次上）：是非编码序列的转录产物
   非编码序列中2%是RNA
   microRNA：RNA干涉现象引入的，外源的叫做小的双股RNA，内源的叫做microRNA（21-24，在基因组上的长度400-1000个核苷酸）  ！！microRNA家族的发现（1000多种）；从基因组直接转录出来的叫做microRNA的前前体（pro microRNA：400-1000个核苷酸），经过一次酶（Drosha）切, 得到microRNA前体（pre micro RNA：40-90个核苷酸），前体从细胞核释放到细胞质里，被Dicer酶剪切，成为双股microRNA成体；再经过裂解酶，变成两股链，其中一股链招募了几个蛋白，形成了成熟的microRNA的转录抑制复合物（RISC），这个复合物变成工厂去识别target进行剪切


   RNA干涉（RNAi:RNA interference）：由RNA导致的基因沉默现象；是一项快速、高效、便于操作的是使靶基因失活的技术，它可以像基因敲除一样非常有效的鉴定特定基因的功能
   NON-coding RNA: RNomics；Long nc RNA
3、非编码基因：某些非编码RNA具有明确的生物学功能，有明确功能的非编码RNA对应在基因组上的位置，叫做非编码基因

		自动登录	找回密码
密码			注册

生物信息学 入门知识--浅谈（四）

生物信息学入门知识--浅谈（四）