1、Drug-target interaction data
药物化合物和靶蛋白间的相互作用关系数据来源于KEGG BRITE,BRENDA,SuperTarget和DrugBank数据库。
2、Chemical data
药物化合物的化学结构提取于KEGG LIGAND数据库的DRUG和COMPOUND部分。运用SIMCOMP方法计算两个药物化合物之间的结构相似性:把药物化合物表示成图,再基于两个图共同子结构的大小来计算一个相似性得分。给定两个药物化合物di和dk,它们间的化学相似性可由如下公式算出:
Sc(di,dk)=|di∩dk|/|di∪dk|
所有药物化合物对之间的相似性矩阵由Sc表示。
3、Genomic data
靶蛋白的氨基酸序列提取自KEGG GENES数据库,计算靶蛋白间的序列相似性会用到一个正则化版本的Smith-Waterman分数。给定两个靶蛋白tj和tl,两个蛋白间的基因相似性可以由如下公式算出: