生物信息学入门知识--浅谈（三）

xuanzhang · 发表于 2016-7-30 22:57:46

续二

Tips：
   1、一个成熟RNA的结构（准备放在核糖体上制造蛋白的）；
   一定有的部分：cap(最前端的帽子结构：焦磷酸，三个) + 5‘的非翻译区（UTR）+ 起始密码子（甲硫氨酸:AUG）+  编码区+终止密码子（三选一：AUG,UGA,UAA）+ 3‘的非翻译区（UTR） + 尾巴（poly-A：若干个A连起来的）

   2、SNP( Single Nucleotide Polymorphisms:单核苷酸的多态性)
      ：是拼接后，发现两个基本一样的拼接产物中，个别碱基的变化；可以拿来进一步鉴定它是否标志着正常人/病人导致的、不同人种导致的；去查两个拼接的EST来源，可以基本判定；

2、新基因发现的主要原理？
   （1）使用DNA数据，发现基因的过程是个识别问题；
   （2）使用EST数据，发现基因的过程拼接问题；
3、新基因发现的关键步骤是什么？
   （1）使用DNA数据，步骤：组装--数学、物理的方法识别出编码区
   （2）使用EST数据，步骤：数据的纯化（数据的处理、标准化）--归属于同一个基因的序列拼接在一起

三、完整基因组的比较研究（一个新的研究方向）
1、该研究解决什么问题？
   研究生命是从哪里起源的？生命是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物至少需要多少基因，这些基因是如何使它们活起来的？-- 完整基因组序列的比较研究是解决这些问题的重要途径
   举例：讲者通过对鼠和人基因组的研究，发现两者拥有的基因总数及种类都基本一致；但是基因在染色体上的分布式完全不同的；由此，推测从遗传密码到表型之间，不仅仅跟遗传密码的总量有关，不仅仅跟包含多少基因有关，而跟这些遗传密码如何组织在一起有很大关系；（其实高等脊椎动物的遗传密码量都差不多30亿）--因为不同基因，它的左邻右舍不同，它的调控模式就不同；调控模式不同，它的表达时空特征就不同；时空特征不同就决定它的表型不同；所以，这是一个只有在完整基因组水平上比较才能给我们的启示。

四、基于序列数据的生物进化研究（当前面临的问题）
1、进化论研究
进化论研究的核心：是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来，随着分子生物学的不断发展，进化论的研究也进入了分子水平。
当前分子进化的研究，已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。
2、
   序列相似性比较（序列的两两比对（常用程序包BLAST、FASTA），确定这个序列的生物属性：判断该序列与那个序列相似）－>序列同源性比较（多序列比较(常用程序包CLUSTAL)：计算量大，只有近似算法）－>选择合适的构建进化树的方法（有多种构建方法，常用软件包PYLIP,MEGA）－>稳定性检验(构建过程要随机重复成百上千次，来判断分支是否稳定；通用方法Boostrap)
   相关软件及下载地址：

3、遇到的问题：
   基因在演化的过程中，会发生横向迁移（Lateral Gene Transfer,客观事实）；所以在研究基因演化时，确保基因时没有受到横向迁移的影响；
4、在基因迁移客观存在的前提下，如何构建进化树
   方法一：在选材时，去掉跟横向迁移有关的序列；已经存在数据库（COG），中只保留纵向演化的序列，去掉了横向迁移
   方法二：用完整的基因组进行比对（碱基水平的比对），不考虑基因是由纵向演化还是横向迁移得来；
                  遇到问题：基因组size不同，不能做符号和符号之间的比较，发展新的基于完整基因组的信息比对
                  提取符号特征，对size归一化；基本提取序列之间联体符号出现的频率
                  另一种思路：基于基因组中的部分，即只考虑基因组中的基因，基因也可以部分表达所以基因组信息

Tips:
   1、相似跟同源是两个概念

第三章生物信息学研究内容之二（进入21世纪后的研究热点：基因组研究从测序走向功能）

从遗传密码出发，而了解生物生活的功能；就是要完成静态的遗传密码，像4维的时空的信息的动态表达谱进行转换；20世纪得到遗传密码，而 21世纪要了解这个码在哪个时间，哪些组织里表达哪些功能
一、干细胞作为基因组研究的重要选材


* Totipotent stem cell: 全能干细胞, 如受精卵
* pluripotent stem cell: 多能干细胞，如囊胚中的内囊细胞
* multipotent stem cell: 专能干细胞，如造血干细胞

二、snp研究的国籍大协作
1、snp研究
   SNP研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。
2、重要发现：对y染色体的snp分析
   实验：取了100中不同人群，其中包括黑猩猩、大猩猩，非洲原住民，等；想找出一个变化的碱基位点（snp），可以把所有样本分成两类；最后，找到一个位点可以把样本分成两类，一类包含三者（黑猩猩、大猩猩，非洲原住民），另一类是其他人类样本；
   结论：
   1、非洲的古老人群，比其他人更为古老；
   2、人是从非洲开始迁徙的；
   3、这个碱基的突变速率（大约20万年才会发生突变），即最近的一波人类迁移是从非洲分布到世界各地的；
3、snp数据库
   1、SNP Consortium's database（http://snp.cshl.org/index.html）：最新版本中（May 2001）包含有1,034,034个SNP, 它们全部被锚定到人类基因组的工作草图上
   2、NCBI SNP database (http://www.ncbi.nlm.nih.gov/SNP/overview.html)：这一数据库是由美国国立卫生研究院（NIH）的国家人类基因组研究所和国家生物技术信息中心共同建立和维护的。到2001年9月12日该数据库共收录了3,053,511 个SNP，其中人的SNP 有3,052,574。将这些数据进行整理，去掉冗余，使每个SNP都是唯一的。此时的SNP被称为reference SNP或refSNP,对每个这样的SNP都设定一个标号，称为rs ID。整理后，人类的refSNP总数为1,805,951。
   3、The Human Genic Bi-Allelic Sequences Database （http://hgbase.cgr.ki.se/）：它是由一个欧洲协作组构建的。这一数据库收录了人基因组中所有已知的序列变化，包括：SNPs、序列的插入和缺失(Indels)、简单重复序列等。
   4、The Allele Frequency Database(ALFRED) （http://alfred.med.yale.edu/alfred/index.asp）：它是人类群体等位基因频率数据库。当前它存有人类等位基因频率表3561份，SNP 233个
   5、The Protein Mutant Database(PMD)（ http://pmd.ddbj.nig.ac.jp/）：它不是核酸突变数据库，而是蛋白突变数据库。库中收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。现存有突变记录23,167条，代表了115,766个氨基酸突变。

三、DNA芯片的广泛应用
   1、基因芯片：核酸水平了解特定时间特定特定组织基因表达的重要工具；
         芯片分析的流程：基因芯片的扫描（获得芯片上基因位点的光密度值）：对每个位点进行光密度的扫描时，要先进行网格化（确定芯片每一个杂交点的位置。具体说来，它要做三件事情，即：发现每一个杂交点；按照信号的强弱等级分割信号和背景的边界；分别读取信号和背景的光强度），以保证位点光密度的准确度量－> 一定要进行正则化（矫正其他因素的影响），使得光密度值能准确反映基因的表达量－>进行信息提取：可以通过聚类方法（把表达特征一致的那些个点放在一起（可能说明这些基因时协同起作用的））；也可以通过分类的方法（基于一些现有知识进行分类）
         芯片分析的软件包：
      （1）TIGR(The Institute for Genomic Research)芯片数据分析软件包： MultipleExperimentViewer (TMEV)是用Java语言设计的。用于对芯片数据标准化及进行聚类和距离代数的分析；ArrayViewer是一个简化的芯片数据分析软件；Spotfinder是用于芯片信号收集和图象处理的。
         （2）Stanford大学Brown实验室芯片数据分析软件：该实验室最早建立了实用的Microarray设备及其运行软件： ScanAlyze 用于荧光图象的处理； SMD Package用于原始数据的储存和标准化；Cluster、XCluster 用于多层次聚类分析和构建自组织图； SAM 用于有监管的学习过程；TreeView 用于从分析结果建图； KNNimpute 用于评估缺失的芯片信息。
做正则化处理
      （3）EBI(欧洲分子生物学研究所)的表达数据分析工具：是该实验室正在建立与完善的一套大型软件系统。其功能包括：聚类分析，特征模式发现，图象可视化，浏览基因分类信息，萃取调控序列，研究蛋白相互作用以及将分析结果连接到其他工具等
         标准表达谱数据：从Brown实验室和NCBI的GEO(Gene Expression Omnibus)网点可取得典型的基因表达谱数据集
         可改进的问题：基因芯片光密度数据标准化上进行改进和提高；如何处理大量表达不明显的点（出现两倍或两倍以上的变化，认为有表达差异），在稀疏矩阵中，这些变化小于两倍的点如何赋值；大规模基因功能表达谱数据挖掘和知识发现：这是表达谱研究成功与否的关键。只有找到成百上千个表达水平发生变化基因之间在实现生物功能上的关联，才能充分揭示基因功能表达谱数据蕴含的丰富信息
   2、功能基因组信息分析的进一步工作：必然是获取基因调节网络的知识。探讨生物系统中各部分、各层次的相互作用，从而进入系统生物学的领域。
   3、蛋白质组学技术：它与基因芯片一样是功能基因组的研究手段，与基因芯片不同的是，它是在蛋白质水平获取基因功能表达谱（使用二维凝胶电泳技术和测序质谱技术）是在蛋白质水平上检测基因表达的变化
      二维凝胶电泳技术：把含有几千个蛋白的样品经过二维凝胶电泳进行粗分，分成大概10个左右一组的蛋白；因为数据库中有标准谱的存在，所以分离出的单点可以直接确定是何种蛋白
      测序质谱技术：输入是几个或几十个蛋白组成的，第一步：经过特别的酶（用哪个酶切，酶切位点是固定的），把蛋白水解成片段 —> 经过印象色谱？,让小片段,根据质量重新排序 -> 小肽进行第一次测序，测整个小肽的质量（在两个电极之间加电压，每个小片给一个电荷，通过记录时间，判断质量(通过荷质比)）-> 第二次测序，把小片段用物理的方法（惰性气体冲击；激光把平面弄成高能状态，使其具有电荷）再打断，同样每个都加上电荷，再加电极，跑起来记时->得到两个量（小肽的质量和数量）->最终，测出来的序是水解后多肽的序，不是蛋白的序，把小肽的序拼起来就得到了蛋白质

      问题：打断位点不都是我们想要的；电荷不是每次都只给一个；找哪个是b离子
      缺点：测序的质谱得到的两个量（数量和质量），而比对时的标准谱，没有标准的数量值，是认为设定的；大量的计算是浪费的；无法测出新的蛋白；
   4、蛋白质芯片：把蛋白质固定在芯片上，是研究蛋白质功能的，主要研究蛋白与蛋白以及蛋白与配体（药物）的相互作用
      困难：得到纯样品；并且保持蛋白的天然构象
   5、大规模基因功能表达谱的分析
   随着人类基因组测序逐渐接近完成，人们自然会提出如下的问题：即使我们已经获得了人的完整基因图谱，那我们对人的生命活动能说明到什么程度呢？人们进一步提出了一系列由上述数据所不能说明的问题，例如：基因表达的产物是否出现与何时出现；基因表达产物的量是多少；是否存在翻译后的修饰过程，若存在是如何修饰的；基因敲除（knock-out）或基因过度表达的影响是什么；多基因差异表达与表现型关系如何等等。概括这些问题，其实质应该是：知道了核酸序列和基因，我们依然不知道它们是如何发挥功能的，或者说它们是如何按照特定的时间、空间进行基因表达的，表达量有多少

		自动登录	找回密码
密码			注册

生物信息学 入门知识--浅谈（三）

生物信息学入门知识--浅谈（三）