机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1924|回复: 0
打印 上一主题 下一主题

药物-靶点的链接预测的相关数据库、服务器和计算模型

[复制链接]
跳转到指定楼层
楼主
发表于 2016-8-10 17:25:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Severus 于 2016-8-10 17:31 编辑

论文标题: Drug-target interaction prediction: databases, web servers and computational models.

论文链接: 文章链接

作者: Xing Chen, Chenggang Clarence Yan, Xiaotian Zhang, Xu Zhang, Feng Dai, Jian Yin and Yongdong Zhang

文章概述:

1、总结了识别药物-靶点和与药物发现(drug discovery)相关的数据库和服务器;
2、介绍了药物-靶点间链接预测的计算模型,包括基于网络的方法、基于机器学习的方法等。对于基于机器学习的方法,更多关注于监督学习和半监督学习,而这两者在负样本的使用上有着本质差别,监督学习中,在不知道药物-靶点间作用关系的前提下,根本无法获取药物-靶点对,因此对于监督学习来说,选择负样本是一个难题,如果不能准确选择负样本,会很大程度地影响预测准确度。

===========================================================================
Databases and web servers

1、DrugBank:链接

拥有丰富的、带注释的生物信息和化学信息,包括药物的细节数据(化学结构、药理特性、制药等)和丰富的靶点信息(序列信息、结构信息等);

2、TTD(Therapeutic target database):链接

提供已认证或已被发现的药物蛋白及核酸靶点的信息,包括靶点相关疾病信息、通道信息和每个靶点对应的药物信息;

3、SuperTarget:

分析了332828种药物-靶点间的相互作用关系,允许查询药物、靶点、药物-靶点的相关路径、药物-靶点的本体论和细胞色素P450;

4、TDR targets:

存储了热带病的化学基因组资源,旨在促进药物以及病原体药物靶点的识别和优化,包括带有功能信息的病原体基因组信息(表达、系统发育、本质等方面);

5、ChEMBLM:

包括大量类似药物的活性物质的结合信息、功能信息和ADMET信息(即体内吸收率、分布、代谢、排泄、毒性等性质),这些数据会定期在已发表的文献中手动收集整理,目前包括54万个生物活性测量值,对于药物发现有很大帮助;

6、ChemBank:

存储了大量数据,来源于小分子和小分子筛,是学习分子特征的良好资源。ChemBank数据库存储了原始的屏面数据,并且严格定义了按照统计假设进行测试的筛选试验,同时也对筛选项目的相关实验进行了组织结构的划分;

7、CancerDR:

提供了148种抗癌药物的综合信息和这些药物在952种癌细胞系中的药理作用性能分析,同时也提供了所有116种药物靶点的综合信息,比如在癌细胞系中1356个独特突变数据、基因本体(GO)数据等等,CancerDR充分利用了这些数据,来提供有效的个体癌症治疗,对于识别基于基因突变和剩余阻力的基因编码药物靶点也十分有用;

8、ZING:

最大的配体发现(ligand discovery)数据库,对于为生物靶点寻找化合物配体(可能是相关的结合药物)的工作极为重要,ZING拥有2千万以上的市面可见的化合物来用于配体发现和虚拟筛选实验,并且允许通过可以结合的靶点来查询已知的化合物;

9、ASDCD:

用于研究抗菌药物、并以促进分析联合用药和开发新型抗菌药为目的的合并用药数据库,包括210种抗菌联合药物和1225种药物-靶点相互作用关系;

===========================================================================
Computational models

1、基于网络的模型:

(1)MTOI:通过系统地分析一个疾病网络中疾病状态和正常状态间的转化来推测潜在的药物靶点,目的是找出多个靶点中最优的调节方法,来给出最好的状态转换过程。这个方法的输出不仅包括很多潜在的药物-靶点间相互作用关系,还包括最优的调节方案(即药物作用于那些靶点可以最快的调节回正常状态)。参考文献链接

(2)Drug side-effect similarity-based method:利用副作用相似性来辨别两种药物是否具有同一个靶点。分别提出了一个S型函数用来模拟在化学相似性的基础上两种药物共享同一个靶点的概率,以及线性函数来模拟根据副作用的相似性两种药物共享同一个靶点的概率,这个过程要对所有的drug-drug对都遍历一遍。参考文献链接

           

(3)NRWRH:基于相似药物总是会与相似的靶蛋白相互作用的假设,把药物-药物相似性网络、蛋白质-蛋白质相似性网络和已知的药物-靶点相互作用网络整合成一个三方异构网络,并用基于网络的在异构网上重启的随机游走模型,通过在异构网络上随机游走来预测潜在的药物-靶点关系。参考文献链接

           

         其中矩阵A表示药物-靶点间关系矩阵,如果靶点 i 与药物 j 相匹配,则A(i,j)=1,否则为0;λ表示从靶点网络跳到药物网络(反之相同)的概率;Sd表示药物相似性矩阵;St表示靶点相似性矩阵;r表示重启概率;Pt表示结点 i 所在的向量。
         NRWRH充分利用了网络来整合数据,与传统的重启RW有所区别,这里的RW是在一个由三个网络组成的异构网络中进行的,尽管研究中的药物没有已知的靶点,也可以根据与此种药物相似且已知靶点的其他药物预测出这种药物的潜在靶点。

(4)DBSI,TBSI,NBI:提出了三种监督推断模型,用于预测药物-靶点链接,分别为基于药物相似性推断(DBSI),基于靶点相似性推断(TBSI),基于网络的推断(NBI)。参考文献链接
         DBSI:
                    
         Sc(di,dl)是通过SIMCOMP计算的di与dl间的2D化学相似性,如果di和tj间存在已知的药物-靶点关联,则aij=1;

         TBSI:
                    
         Sg(tj,tl)是基于标准化Smith-Waterman分数计算出的tj和tl间的基因组序列相似性;

         NBI :
                    
         fo(0)=aoj,o∈{1,2,……,n};
         K(d0)=Σs=1-m aos 表示与药物d0相关联的靶点数;
         K(t1)=Σs=1-n asl 表示与靶点t1相关的药物数;

(5)With scores and between scores:把每个药物-靶点对描述成一个由within scores和between scores组成的特征向量:参考文献链接

                    
          St(tx,tpi)是靶点tx和tpi间的相似性;
          St(tx,tqi)是靶点tx和tqi间的相似性;

2、基于监督学习的模型:

(1)二分图学习法:基于核回归的方法,通过整合化合物的化学结构信息、靶蛋白的序列信息以及已知的药物-靶点关系网络的拓扑结构来对药物-靶点间相互作用进行预测。在这项研究中,机遇二分图建立了一个监督学习的框架,使得在化学空间中的药物和基因组空间中的靶点对应成了一个统一的药理空间,运用两个基于变种核回归的模型:fc和fg,分别表现化学空间/基因组空间与药理空间之间的关联。对于新的化合物Cnew和新的蛋白质gnew,可以通过这两个模型在药理特征空间映射出来。参考文献链接

                    

         Wci,Wgi:权重向量;Sc(·,·):化学结构相似分数;Sg(·,·):序列相似分数;Ci:其他已知的化合物;gi:其他已知的蛋白质。
         在这个药理空间中,已知的相互有关联的药物-靶点对距离很近,结构相似的药物常常与序列相似的靶点相互作用,而序列相似的靶点也会与结构相似的药物相互作用,因此通过计算药物和靶点之间的亲密度就可以预测出潜在的药物-靶点关系。

(2)BLM:把边的预测问题转换成了二元分类问题。参考文献链接

                    

(3)RBM:不仅可以预测药物-靶点间的二元关系,还能预测不同类型的作用关系(即药物和靶点是如何相互作用的),是基于多维的药物-靶点网络在受限玻尔兹曼机中实现的。这种方法把新的药物-靶点关系问题变成了一个两层的RBM模型(隐藏单元层和可见单元层),并且这两层之间没有内在层连接。此外,用对照判别算法(CD)训练RBM模型和链接预测。这种方法的局限性是只有在已知的药物-靶点关系网络中才能获取预测结果,药物相似性网络和靶蛋白相似性网络不能应用到这个模型中。参考文献链接

                    

3、基于半监督学习的模型:

(1)Kron-RLS:之前的许多方法都是基于药物的化学结构和靶点的基因组序列相似性提出的,而传统模型都是基于on/off数据,没有反映出药物-靶点关系真实案例的现实问题。因此大多数机器学习模型都把药物-靶点关系预测看作是二元分类问题。而药物-靶点关系并不是简单的二元on/off的关系。Kron-RLS方法的提出者阐述了四种可能提高药物-靶点关系预测性能的因素:问题公式化、评价数据集、评价程序和实验设置。尤其对于问题公式化这一因素,通过把预测问题公式化表示成回归预测模型,而获得更真实的预测结果。Kron-RLS方法基于激酶抑制剂的定量活性数据来预测潜在的药物-靶点关系,给定训练药物-靶点对的输入数据xi和它们的真实值标签yi(相互作用亲和力),预测函数可由如下目标函数的极小化得出参考文献链接

                    
         λ:用户提供的正则化参数,用于控制在训练样本时的预测误差和协调模型复杂性;
         ||f||k:f测量在希尔伯特空间的范数;
         k:分别基于药物化学结构相似性和靶点蛋白质序列相似性获得的核函数。

===========================================================================
文章总结:

       这篇论文里面综述性的概括了很多计算模型,讲的都比较笼统,其中有一些的思想还是很值得借鉴的,比如RBM方法就用到了上次组会我报告时提到的对路径分类的方法,只不过差别在于多标签分类中,是对药物-药物的相似性网络进行一个路径的分类,而RBM方法是对药物-靶点间的相互作用关系进行分类,但其实我觉得原理应该差不多,所以准备找这篇论文来学习一下。我觉得这篇论文对我最大的帮助,除了提供一些数据来源的参考之外,就是在大致学习这些计算模型的理念时,能让我的思路拓宽一些,学习一些新的预测方法的思想,也会对后面的实验算法改进提供一些思路。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-5-19 12:11 , Processed in 0.064564 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表