蛋白质分类相关资源(持续更新)

zouquan · 发表于 2013-5-21 10:58:32

注意：本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流。菜鸟先去15楼看一下。

1. 问题和数据
   1.1 综述
      1.1.1 综述论文（问题）
      1.1.2 benmark（数据）

   1.2 SCOP 蛋白质结构数据库 http://astral.berkeley.edu/
            本实验室在该数据库上的工作见 HPFP (发表在PLoS ONE)，邹莹同学的毕业论文

   1.3 沈红斌老师课题组，相关数据我已下载，放在205FTP的 /home/share/数据/生物信息学数据/沈红斌数据目录下

   1.4 使用Chou的PseAAC特征进行蛋白分类的相关论文见：http://en.wikipedia.org/wiki/Pseudo_amino_acid_composition

   1.5 膜蛋白识别和分类
      1.5.1 李旭斌同学的毕业论文
      1.5.2 膜蛋白数据库的论文

   1.6 蛋白质同源检测，见下方跟帖

   1.7 识别DNA binding proteins,可以参考南邮吴建盛老师的相关论文

   1.8 酶分类. paper1,

   1.9 蛋白质相互作用预测，数据1

   1.10 识别多肽聚合蛋白. paper1(有软件)

2. 特征提取方法
   2.0 集成的web server和软件 http://protrweb.scbdd.com/          刘滨老师Pse-in-one Bioseq-Analysis 宋江宁老师iFeature  iLearn，还有 PyFeat，Seq2Feature,  BioSeqVISA

   2.1 基于PSSM矩阵
   2.1.1 利用BLAST+计算PSSM矩阵方法见此贴

   2.1.2(该方法目前已停用) 将PSSM的每行求平均值，得到20维特征的Java批量运行代码见 http://datamining.xmu.edu.cn/~cwc/20feature/Get20.htm

   2.1.3 董启文Bioinformatics2009方法，见跟帖

   2.1.4 刘滨Bioinformatics2014方法，见跟帖

2.2 基于组成与理化特征
   2.2.1 基于理化特征的188维特征（优点：运算速度快，适合做web server），Java代码（参考：SVM-Prot）注意：输入序列需要大写。具体每一维的意义见下方跟帖。

   2.2.2 PseAAC-Builder, , 放到服务器上解压缩后，直接到prebin文件夹下，将蛋白质的fasta文件考入，例如2.fasta  （注意格式：fasta的标题行应该是>Q9ZW3|1这样的格式，其中1是类别标签。INPUT_FILE should be a valid FASTA format file. The additional restriction is in the annotation line, which was always started by ">". Every annotation line in the input FASTA file must contain two and only two fields, which are separated by "|". The first field is the id of the sequences, which can be gi numbers, uniprot id, accession numbers or anything that can identify the sequence uniquely in the FASTA file. The second field is an integer, which is recognized as the class label when you export the result. If you do not need a class label, simply put a "0" in this field.）

然后运行：./pseb -i 2.fasta -o out.txt -t 0

   生成10维特征文件out.txt；如果-t 1,则生成20维特征文件。具体可以./pseb --help

#关于PseAAC，还有沈红斌老师的web server
#PseAAC-General,

2.3 n-gram见下方跟帖, k-skip见该贴

2.4 二级结构预测方法见下方跟帖

2.5 基于PPI网络的特征，

3. 分类器相关

   3.1 deep learning code

   3.2 libD3C (本实验室开发), 可以加入weka的版本，

   3.3 libSimpleVote （李旭斌开发，具体参考他的毕业论文6.2部分）

   3.4 极限学习（参见下面跟帖）

   3.5 PCVM, 见该帖

   3.6 PU-learning（训练集是正例p和未标记样本u），参见 https://www.cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html

4. 可供实验比较的软件、网站

   4.0 与PSI-BLAST比较，参考http://bbs.malab.cn/forum.php?mod=viewthread&tid=1204

   4.1 细胞因子 (Cytokine)的识别
         CytoKey
   4.2 多肽聚合预测
      ProA
   4.3 DNA binding Protein预测
      iDNA-Prot
   4.4 亚细胞定位
      杜朴风老师的工作
5. 衡量指标

   5.1 ROC和ROC50，见跟帖

6. 数据预处理
   6.1 找出相似度高的序列，可以尝试CD-HIT （使用方法见楼下回帖）和 PISCES
            Ref：Li, W.; Godzik, A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 2006, 22, 1658–9
   6.2 降维技术
      6.2.0 一篇很好的综述：http://bioinformatics.oxfordjour ... 23/19/2507.full.pdf
      6.2.1 mRMR：http://penglab.janelia.org/proj/mRMR/ ，参考该帖子
      6.2.2 OMP：http://www.cs.technion.ac.il/~ronrubin/software.html
      6.2.3 论文1
      6.2.4 MDR (multifactor-dimensionality reduction)
      6.2.5 t_SNE http://homepage.tudelft.nl/19j49/t-SNE.html
      6.2.6 MRMD(本课题组开发：链接)
                     参考文献：Quan Zou, Jiancang Zeng, Liujuan Cao, Rongrong Ji. A Novel Features Ranking Metric with Application to Scalable Visual and Bioinformatics Data Classification. Neurocomputing. 2016, 173: 346-354

zouquan · 发表于 2019-12-10 21:37:33

我们做这个研究的意义和流程：
以转运蛋白为例。正常的研究是不管是转运蛋白还是其他的什么蛋白，先收集数据，收集好了用前面那一套方法进行分类，分类效果好之后开始降维，找出最有用的特征，用两三个特征能不能把正反例分开？然后看看这些特征是什么含义，最后解释出转运蛋白和非转运蛋白在序列层面上的差异在哪？比如转运蛋白的疏水氨基酸都分布在中间XXXX。这种理化性质一般才是决定功能的因素，而BLAST是比对不出这种理化性质的相似和差异。所以要靠机器学习和计算机来从茫茫理化性质中试出这些关键因素。

zouquan · 发表于 2013-5-22 17:15:13

最新论文

xujinghao · 发表于 2013-5-23 10:23:45

提示: 该帖被管理员或版主屏蔽

cwc · 发表于 2013-6-13 20:01:08

本帖最后由 cwc 于 2013-6-13 20:17 编辑

   数据集来自于http://noble.gs.washington.edu/proj/svm-pairwise/ ，是蛋白质远距离同源检测的权威数据集。

数据说明
data文件夹:下面分为54个子文件夹，代表54组数据。每组数据下面有1.fa、2.fa、3.fa、4.fa，这四个文件提取了table中的4种数据的sequence。

   另外由于附件大小限制，无法把所有的内容打包，这里再对网站上的数据说明一下
sequence file:所有的fasta数据
Tab-delimited table :table中有54列，代表有54组分类数据，1表示正例训练，2反例训练，3正例测试，4反例测试。表示每条蛋白质也同时作为其他组的反例数据，因此反例样本远远大于正例样本。
   总结一下，感兴趣的同学如果要做的话，需要把4个文件分别提取特征，类标分别为1、-1、1、-1。然后1和2合并为训练集，3和4合并为测试集。

刘滨博士对该问题有过研究,论文附在附件。
ps.因为正例跟反例是非常不平衡的，所以评价指标采用ROC和ROC50。所以同学们不要一看觉得准确率很高就以为效果很好了哦

cwc · 发表于 2013-6-22 09:35:12

本帖最后由 cwc 于 2013-11-28 10:05 编辑

N-Gram模型
   N-Gram是大词汇连续语音识别中常用的一种语言模型，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
蛋白质N-Gram
   对应于蛋白质序列，由于蛋白质有20中氨基酸组成，因此若n=3，排列组合总共有20*20*20=8000种，然后在蛋白质序列中查找这8000种组合的出现次数或者频率。这里，我稍微做了点改进，当n=3时n=1、n=2的组合也加进去，也就是8000+400+20=8420种特征。
使用方法
      使用时只需敲命令java -jar n-gram_pro.jar n inputpath outputpath method
其中n为长度，一般为2或3，method为0时计算次数，为1时计算频率。输入为fasta格式。

xujinghao · 发表于 2013-6-24 10:48:58

关于ROC以及ROC50的计算，增加了ROC50的程序以及算法

注意：本代码的ROC计算方法没有考虑到多个点的预测值相同时的情况，因此对于预测精度不高的分类器（比如10棵树的RF），数值会与weka的计算结果有较大偏差，以weka为准。
The ROC50 score is the area under the ROC curve, up to the fi rst 50 false positives

Snow_Bubble · 发表于 2013-8-2 21:30:38

复旦董启文的方法：
在PSSM矩阵的基础上，分AC和ACC两种方法。
AC方法测量同一属性的相关性。即在PSSM矩阵中，每行上每个数和相隔距离为1、2、……、LG的两个数计算相关性，靠近两边的做一定特殊处理，产生的维数是20*LG。
ACC方法测量不同属性的相关性，产生的维数是380*LG，再加上AC法的20*LG维，最后得到的是400*LG维。
董启文的代码在不同的数据集上做实验得到结果是LG取8-10为佳，最好取10，不过这有可能会根据数据集、分类器等其他因素改变。
董启文的代码网址：http://www.iipl.fudan.edu.cn/demo/accpkg.html。里面有readme，不过是英文的，下面做一点使用说明。

　　将main.cpp文件，用VS2008或类似软件打开。以08为例，新建Win32项目，在源文件中导入已有项即main.cpp，运行生成可执行文件，在工程的Debug文件夹中可以找到。重命名为AC.exe。
　　如果要做ACC方法，则要先再源代码中去掉#define AC这一句，生成的文件可以命名为ACC.exe。
　　新建一个JAVA工程，做以下几步：
　　1、写bat文件，因为PSSM矩阵每一个序列生成一个文件，会很多。PSSM矩阵生成参见2.1。bat文件内容为：
         AC.exe LG pssm矩阵文件名 out文件名
         或
         ACC.exe LG pssm矩阵文件名 out文件名
****建议****：矩阵文件名和out文件名都带上一层文件路径，多建一个文件夹，否则会很乱。
　　2、把AC.exe或ACC.exe和所有PSSM矩阵放在这个工程里面，运行所有的bat文件，每个文件得到一条属性。
　　3、合并得到的文件夹中所有个文件，得到特征输出。
4、上一步做完后可以多写一个方法来删除那些很大的文件夹，也可以不删。
　　5、参照按其他方法得到的arff文件（不包含文件头也就是@部分），来写每一条属性的class。
6、最后再加上arff文件头后就能成为标准arff文件了。

zouquan · 发表于 2013-8-11 23:51:33

一般说来，在论文实验部分，除了交叉验证论文提出的分类方法有效之外，还应该做一些更深入的分析。参考下面一个期刊（ Protein & Peptide Letters， PPL）主编给客座编辑的信。

This higher standard is the expectation that such papers will contain a correlation of computational predictions with observations in experimental studies of proteins. I'm sure you will agree that for a computational method to be considered valid it should be able to demonstrate that it works for a known protein. For example, if you use a set of N known proteins to derive information about where phosphate is likely to be added and develop a program to predict the same property for unknown proteins, the program should first be shown to make correct predictions for several other examples of structurally known proteins that were not part of the first set from which the rules were developed. Unfortunately, I have seen many manuscripts submitted to PPL in the past few years that leave out this important correlation and have had to reject them with advice to the authors to consider revising and re-submitting with the inclusion of the additional information. I request that you include some discussion of this in the letter that you sent to all potential authors so that they prepare their manuscripts while following this expectation.

RockRabbit · 发表于 2013-8-27 21:55:40

由于在蛋白质分类问题中，进行特征提取时时常用到二级结构特征，我在这边介绍一种常用的二级结构软件PSIPRED
的安装方法，希望对同学们有用。

蛋白质二级结构预测软件 -- PSIPRed 3.3

(1) 需要先安装BLAST+ ，并设置环境变量（在linux环境下，环境变量在/etc/profile下设置），下载BLAST+： ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

(2) 下载PSIPRED 3.3 ： http://bioinfadmin.cs.ucl.ac.uk/downloads/psipred/

(3) 对于用到的nr 蛋白质数据库，需要事先进行数据库格式化（format）：在linux操作下，cd 到 BLAST+/bin目录，运行命令： # makeblastdb -dbtype prot -in uniprot_sprot.fasta -input_type fasta -title nr -out nr ，将生成的相关文件拷到PSIPRED3.3目录下的BLAST+ 文件夹。参考：forum.php?mod=viewthread&tid=896
注：也可到ncbi的ftp直接下载format好的nr文件，70服务器已format好的nr和nt位于/backup2/blastdb/ 目录下

(4)  开始安装PSIPRED，运行下列命令：
      tar -zxvf  *.tar.gz  file
      cd  psipred
      cd  src
      make
      make install

(5) 到psipred目录下的BLAST+文件夹中，打开文件runpsipredplus，重新设置路径：
      dbname # 步骤（3）得到的格式化后数据库的名称，一般用nr
   ncbidir #  BLAST+所安装的路径

(6)  ./runpsipredplus example.fasta
# 运行用到脚本tcsh，所以如果机子上没安装tcsh，运行命令： sudo apt-get install tcsh

RockRabbit · 发表于 2013-8-30 20:34:23

这是预测蛋白质结构以及相关其他特征的一些软件的网址，大家可以关注一下。

http://www.igb.uci.edu/tools/proteomics/psss.html

其中ACCPro是用来预测relative solvent accessibility特征。大家可以试着使用。

		自动登录	找回密码
密码			注册

xujinghao xujinghao 当前离线积分 39	地板发表于 2013-5-23 10:23:45 \| 只看该作者提示: 该帖被管理员或版主屏蔽
xujinghao xujinghao 当前离线积分 39
	回复支持反对使用道具举报

蛋白质分类相关资源(持续更新)

本帖子中包含更多资源

相关帖子

本帖子中包含更多资源

蛋白质远距离同源探测数据集

本帖子中包含更多资源

蛋白质n-gram特征提取方法

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块