本帖最后由 Severus 于 2016-11-29 21:45 编辑
论文标题: Predicting drug–target interactions from chemical and genomic kernels using Bayesian matrix factorization
论文链接: 文章链接
作者: Mehmet Gönen
文章概述:
文章提出了一个改进版的矩阵分解方法:整合了基于核函数的非线性降维、矩阵分解和二元分类三种方法,可以使用药物化合物间的化学相似性和靶蛋白间的基因相似性来预测drug-target相互作用网络。该方法首次把全概率公式运用到推断drug-target相互作用网络上,这是与之前研究的不同之处。
补充:
=======================================================================
实验数据
使用四种人类的drug-target相互作用网络:酶,离子通道,GPCR(蛋白偶联受体)和核受体。数据集来自于http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/,原数据基础上未添加新的相互作用关系。
1、Drug-target interaction data
药物化合物和靶蛋白间的相互作用关系数据来源于KEGG BRITE,BRENDA,SuperTarget和DrugBank数据库。
2、Chemical data
药物化合物的化学结构提取于KEGG LIGAND数据库的DRUG和COMPOUND部分。运用SIMCOMP方法计算两个药物化合物之间的结构相似性:把药物化合物表示成图,再基于两个图共同子结构的大小来计算一个相似性得分。给定两个药物化合物di和dk,它们间的化学相似性可由如下公式算出:
Sc(di,dk)=|di∩dk|/|di∪dk|
所有药物化合物对之间的相似性矩阵由Sc表示。
3、Genomic data
靶蛋白的氨基酸序列提取自KEGG GENES数据库,计算靶蛋白间的序列相似性会用到一个正则化版本的Smith-Waterman分数。给定两个靶蛋白tj和tl,两个蛋白间的基因相似性可以由如下公式算出:
SW(·,·)即标准的Smith-Waterman分数,所有靶蛋白对之间的相似性矩阵表示为Sg。
=======================================================================
实验方法
1、一些定义:
(1)Xd={d1,d2,...,dNd}:药物集合,Nd为药物数量;
(2)Xt={t1,t2,...,tNt}:靶点集合,Nt为靶点数量;
(3)R:子空间的维度(也就是分解后得到的两个矩阵的列数);
(4)Kd、Kt:分别为Nd*Nd维和Nt*Nt维的矩阵,代表药物和靶点的核心矩阵(实验中分别由化学相似性矩阵和序列相似性矩阵代替);
(5)Ad、Λd:Nd*R维的(投影)矩阵,分别由相应的投影参数ad和投影参数的先验λd计算得到,Λd相当于对Ad的一个初始化;
(6)At、Λt:与药物的投影矩阵类似,是Nt*R维的矩阵,分别由相应的投影参数at和投影参数的先验λt计算得到,Λt相当于对At的一个初始化;
(7)Gd、Gt:分别为R*Nd、R*Nt维的矩阵,是Kd和Kt经过投影矩阵Ad、At投影到同一个子空间后的表示形式(即Gd=Kd的转置*Ad);
(8)F:Nd*Nt维的相互作用分数矩阵,fij代表药物di和靶点tj之间的相互作用分数;
(9)Y:Nd*Nt维的相互作用变量矩阵,矩阵中的元素yij∈{-1,+1},如果药物di和靶点tj之间存在相互作用,则yij=+1,否则yij=-1;
(10)Ξ={Λd,Λt}:先验矩阵的集合;
(11)Θ={Ad,At,Gd,Gt,F}:模型中其他矩阵的集合;
(12)v:边缘参数,实验中设置为0。
注:Ad和At是没有什么实际意义的,它们的作用就是为了把两个核心矩阵投影到同一个子空间,相当于两个参数矩阵,最终要求的就是这两个矩阵。
2、文中用到的分布假设:
注:文中在概率模型中只用了伽马分布和正态分布,主要原因是由于这些分布之间的共轭性,使用这两个分布可以很容易得到一个很充分的推理机制
最终可以把互作矩阵分解为:
3、利用变分近似法的推理机制:
利用变分近似法代替Gibbs采样,在时间上更有效率,变分方法利用分解后验的组合来对边缘相似性采取一个更低的下界,从而得到联合参数分布。
注:变分贝叶斯方法主要是两个目的:
(1) 近似不可观测变量的后验概率,以便通过这些变量作出统计推断。
(2) 对一个特定的模型,给出观测变量的边缘似然函数(或称为证据,evidence)的下界。主要用于模型的选择,认为模型的边缘似然值越高,则模型对数据拟合程度越好,该模型产生Data的概率也越高。
对于第一个目的,蒙特卡洛模拟,特别是用Gibbs取样的MCMC方法,可以近似计算复杂的后验分布,能很好地应用到贝叶斯统计推断。此方法通过大量的样本估计真实的后验,因而近似结果带有一定的随机性。与此不同的是,变分贝叶斯方法提供一种局部最优,但具有确定解的近似后验方法。
从某种角度看,变分贝叶斯可以看做是EM算法的扩展,因为它也是采用极大后验估计(MAP),即用单个最有可能的参数值来代替完全贝叶斯估计。另外,变分贝叶斯也通过一组相互依然(mutually dependent)的等式进行不断的迭代来获得最优解。
所求后验概率的近似可分解组合可以写为:
因子计算公式为:
算法过程:
这个算法的运行过程比较简单,就是一直重复更新计算中间的过程矩阵,直到结果收敛。
4、预测过程:
先计算新的药物(或靶点)与已有药物(靶点)集合的相似性,再根据相似性计算该药物(靶点)与靶点(药物)集合的相互作用分数。可用于计算网络中未知的相互作用关系。
=======================================================================
实验结果
1、预测结果图示:
图中虚线表示网络中已知的药物-靶点互作关系,加粗实线表示新预测出的互作关系。
2、与现有方法对比:
这个是与有监督的二分图推论法的实验结果对比的图示,评价标准是AUC(曲线下面积)。
3、横向对比:
经过调整子空间维度R(也就是调整中间投影矩阵的列数),得到的结果如图:
可以得知当R越大,酶和GPCR两个数据集的预测结果越好,而对于核受体数据集几乎没有影响的原因是这个数据集数据量比较小,存在的相互作用关系也比较少,所以影响不明显。
=======================================================================
这篇论文是我在上周的组会中讲过的,这里补充了一些细节,并且对上次报告中一些大家不明白的地方(比如为何选择伽马分布和高斯分布、吉布斯采样和变分近似法等)做了一些讲解,希望大家能看得更明白。 |