蛋白质分类相关资源(持续更新)

zouquan · 发表于 2013-5-21 10:58:32

注意：本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流。菜鸟先去15楼看一下。

1. 问题和数据
   1.1 综述
      1.1.1 综述论文（问题）
      1.1.2 benmark（数据）

   1.2 SCOP 蛋白质结构数据库 http://astral.berkeley.edu/
            本实验室在该数据库上的工作见 HPFP (发表在PLoS ONE)，邹莹同学的毕业论文

   1.3 沈红斌老师课题组，相关数据我已下载，放在205FTP的 /home/share/数据/生物信息学数据/沈红斌数据目录下

   1.4 使用Chou的PseAAC特征进行蛋白分类的相关论文见：http://en.wikipedia.org/wiki/Pseudo_amino_acid_composition

   1.5 膜蛋白识别和分类
      1.5.1 李旭斌同学的毕业论文
      1.5.2 膜蛋白数据库的论文

   1.6 蛋白质同源检测，见下方跟帖

   1.7 识别DNA binding proteins,可以参考南邮吴建盛老师的相关论文

   1.8 酶分类. paper1,

   1.9 蛋白质相互作用预测，数据1

   1.10 识别多肽聚合蛋白. paper1(有软件)

2. 特征提取方法
   2.0 集成的web server和软件 http://protrweb.scbdd.com/          刘滨老师Pse-in-one Bioseq-Analysis 宋江宁老师iFeature  iLearn，还有 PyFeat，Seq2Feature,  BioSeqVISA

   2.1 基于PSSM矩阵
   2.1.1 利用BLAST+计算PSSM矩阵方法见此贴

   2.1.2(该方法目前已停用) 将PSSM的每行求平均值，得到20维特征的Java批量运行代码见 http://datamining.xmu.edu.cn/~cwc/20feature/Get20.htm

   2.1.3 董启文Bioinformatics2009方法，见跟帖

   2.1.4 刘滨Bioinformatics2014方法，见跟帖

2.2 基于组成与理化特征
   2.2.1 基于理化特征的188维特征（优点：运算速度快，适合做web server），Java代码（参考：SVM-Prot）注意：输入序列需要大写。具体每一维的意义见下方跟帖。

   2.2.2 PseAAC-Builder, , 放到服务器上解压缩后，直接到prebin文件夹下，将蛋白质的fasta文件考入，例如2.fasta  （注意格式：fasta的标题行应该是>Q9ZW3|1这样的格式，其中1是类别标签。INPUT_FILE should be a valid FASTA format file. The additional restriction is in the annotation line, which was always started by ">". Every annotation line in the input FASTA file must contain two and only two fields, which are separated by "|". The first field is the id of the sequences, which can be gi numbers, uniprot id, accession numbers or anything that can identify the sequence uniquely in the FASTA file. The second field is an integer, which is recognized as the class label when you export the result. If you do not need a class label, simply put a "0" in this field.）

然后运行：./pseb -i 2.fasta -o out.txt -t 0

   生成10维特征文件out.txt；如果-t 1,则生成20维特征文件。具体可以./pseb --help

#关于PseAAC，还有沈红斌老师的web server
#PseAAC-General,

2.3 n-gram见下方跟帖, k-skip见该贴

2.4 二级结构预测方法见下方跟帖

2.5 基于PPI网络的特征，

3. 分类器相关

   3.1 deep learning code

   3.2 libD3C (本实验室开发), 可以加入weka的版本，

   3.3 libSimpleVote （李旭斌开发，具体参考他的毕业论文6.2部分）

   3.4 极限学习（参见下面跟帖）

   3.5 PCVM, 见该帖

   3.6 PU-learning（训练集是正例p和未标记样本u），参见 https://www.cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html

4. 可供实验比较的软件、网站

   4.0 与PSI-BLAST比较，参考http://bbs.malab.cn/forum.php?mod=viewthread&tid=1204

   4.1 细胞因子 (Cytokine)的识别
         CytoKey
   4.2 多肽聚合预测
      ProA
   4.3 DNA binding Protein预测
      iDNA-Prot
   4.4 亚细胞定位
      杜朴风老师的工作
5. 衡量指标

   5.1 ROC和ROC50，见跟帖

6. 数据预处理
   6.1 找出相似度高的序列，可以尝试CD-HIT （使用方法见楼下回帖）和 PISCES
            Ref：Li, W.; Godzik, A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 2006, 22, 1658–9
   6.2 降维技术
      6.2.0 一篇很好的综述：http://bioinformatics.oxfordjour ... 23/19/2507.full.pdf
      6.2.1 mRMR：http://penglab.janelia.org/proj/mRMR/ ，参考该帖子
      6.2.2 OMP：http://www.cs.technion.ac.il/~ronrubin/software.html
      6.2.3 论文1
      6.2.4 MDR (multifactor-dimensionality reduction)
      6.2.5 t_SNE http://homepage.tudelft.nl/19j49/t-SNE.html
      6.2.6 MRMD(本课题组开发：链接)
                     参考文献：Quan Zou, Jiancang Zeng, Liujuan Cao, Rongrong Ji. A Novel Features Ranking Metric with Application to Scalable Visual and Bioinformatics Data Classification. Neurocomputing. 2016, 173: 346-354

zouquan · 发表于 2019-12-10 21:37:33

我们做这个研究的意义和流程：
以转运蛋白为例。正常的研究是不管是转运蛋白还是其他的什么蛋白，先收集数据，收集好了用前面那一套方法进行分类，分类效果好之后开始降维，找出最有用的特征，用两三个特征能不能把正反例分开？然后看看这些特征是什么含义，最后解释出转运蛋白和非转运蛋白在序列层面上的差异在哪？比如转运蛋白的疏水氨基酸都分布在中间XXXX。这种理化性质一般才是决定功能的因素，而BLAST是比对不出这种理化性质的相似和差异。所以要靠机器学习和计算机来从茫茫理化性质中试出这些关键因素。

zouquan · 发表于 2018-7-8 20:53:00

188D代码具体特征意义：
(有了这个解释，可以用降维的方法，降到最低，从而看看到底哪些特征可以对该蛋白做最有效的分类)

前20维，分别是20种氨基酸（按字母序ACDEFGHIKLMNPQRSTVWY），在序列中的含量。（出现个数/序列长度）

21-41维是疏水性特征
      /** calc_Hydrophobic();
      * string sP="RKEDQN";亲水
      * string sN="GASTPHY";中性（H应该去亲水）
      * string sH="CVLIMFW";疏水  （W应该去中性）
      */

21-23维分别是亲水、中性、疏水的氨基酸含量（出现个数/序列长度）

24-26维分别是转换频率，亲水/中性，亲水/疏水，中性/疏水，（出现转换次数/序列长度-1）

27-31维分别是亲水氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）
32-36维分别是中性氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）
37-41维分别是疏水氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）

下面特征类似

42-62是范德华力
/**  calc_Vanderwaal()
      * string sP="GASCTPD";
      * string sN="NVEQIL";
      * string sH="MHKFRYW";
      */

63-83极性
      /**  calc_Polarity1()
      * string sP="LIFWCMVY";
      * string sN="PATGS";
      * string sH="HQRKNED";
      */

84-104是极化性质
      /**  calc_Polarizability1()
      * string sP="GASDT";
      * string sN="CPNVEQIL";
      * string sH="KMHFRYW";
      */

105-125是电荷性质
      /** calc_Charge()
      * string sP="KR";
      * string sN="ANCQGHILMFPSTWYV";
      * string sH="DE";
      */

126-146是表面张力
      /**  calc_Surfacetension()
      * string sP="GQDNAHR";
      * string sN="KTSEC";
      * string sH="ILMFPWYV";
      */

147-167是二级结构
      /**  calc_Secondarystructure()
      * string sP="EALMQKRH";
      * string sN="VIYCWFT";
      * string sH="GNPSD";
      */
168-188是溶剂可及性
      /**  calc_Solventaccessibility()
      * string sP="ALFCGIVW";
      * string sN="RKQEND";
      * string sH="MPSTHY";
      */

RockRabbit · 发表于 2017-5-2 11:51:49

能生成21种基于PSSM的特征：

http://possum.erc.monash.edu/

liaozhijun · 发表于 2016-9-1 09:00:07

提示: 该帖被管理员或版主屏蔽

RockRabbit · 发表于 2016-6-28 11:30:52

本帖最后由 RockRabbit 于 2016-8-10 08:42 编辑

一个在线的蛋白质各种特征提取网站：

http://bcb.ncat.edu/Features/

使用注意：输入的文件名必须得是.fasta结尾的。如果是做二类分类问题，正例文件可以命名为group1.fasta，反例文件可以命名为group2.fasta，所提取到的特征里的最后一项为他默认给你添加的类标签，例如group1.fasta所对应的特征文件中的类标签为0，group2.fasta所对应的特征文件中的类标签为1。多分类问题依次类推。

zouquan · 发表于 2016-3-16 23:49:46

二类分类（特殊蛋白识别）与PSI-BLAST比较效果

取出CD-HIT之后的正反例的fasta文件。可以分别修改一下每条序列的名字，使得从名字就能一下看出是正反例，然后把正反例合并在一起。

用合并在一起的fasta文件当成数据库，每一条序列依次当成查询文件，用PSI-BLAST进行查询，肯定自己和自己得分最高，得分第二高的如果和查询序列类别相同（同是正例，或同是反例），则正确，反之则错误。统计一下正反例的混淆矩阵。

RockRabbit · 发表于 2015-12-30 15:54:53

MEME软件可以帮助你找数据集中的functional motifs或者conservation motifs，可以通过这些motifs寻找些特征。供大家学习。

http://meme-suite.org/tools/meme

zouquan · 发表于 2015-12-18 00:22:50

菜鸟请看这个帖子：以亚细胞定位为例

蛋白质的亚细胞定位（蛋白质是分子，我们搞信息的人看就是个氨基酸字符串，跟DNA类似。蛋白质在细胞里到处都有，细胞你记得吧？有细胞质、细胞核、高尔基体、叶绿体等等，现在给你一个蛋白质序列，请用软件预测它是位于细胞质里，还是细胞核里，还是高尔基体里？还是到处都有？）（这工作很重要，药就是蛋白质，如果细胞核里有问题了，你吃的药只能到达细胞质，那岂不是白吃了？）

问题明白了吧？

下面介绍方法，这类方法统称“机器学习”(machine learning)方法。（虽然叫机器学习，但是和硬件一点关系没有，完全是算法程序）

给你个蛋白质序列ACMNKGYW，鬼知道他在细胞核里，还是叶绿体中。怎么办呢？你得先给点已知的样例啊，看看已知的样例有没有啥规律，然后才好预测未知的，对不对？这些已知的样本就称为“训练集”(training set)，那些要预测的就称为“测试集”(testing set)。

好了，给你点“训练集”，比如：
高尔基体里有下面这2个蛋白质序列：(>开头那行是蛋白质的名字，下面的就是蛋白序列)
>Q6IBS0
MAHQTGIHATEELKEFFAKARAGSVRLIKVVIEDEQLVLGASQEPVGRWDQDYDRAVLPL
LDAQQPCYLLYRLDSQNAQGFEWLFLAWSPDNSPVRLKMLYAATRATVKKEFGGGHIKDE
LFGTVKDDLSFAGYQKHLSSCAAPAPLTSAERELQQIRINEVKTEISVESKHQTLQGLAF
PLQPEAQRALQQLKQKMVNYIQMKLDLERETIELVHTEPTDVAQLPSRVPRDAARYHFFL
YKHTHEGDPLESVVFIYSMPGYKCSIKERMLYSSCKSRLLDSVEQDFHLEIAKKIEIGDG
AELTAEFLYDEVHPKQHAFKQAFAKPKGPGGKRGHKRLIRGPGENGDDS
>Q9UJV3
METLESELTCPICLELFEDPLLLPCAHSLCFSCAHRILVSSCSSGESIEPITAFQCPTCR
YVISLNHRGLDGLKRNVTLQNIIDRFQKASVSGPNSPSESRRERTYRPTTAMSSERIACQ
FCEQDPPRDAVKTCITCEVSYCDRCLRATHPNKKPFTSHRLVEPVPDTHLRGITCLDHEN

细胞核膜里面有这3个蛋白质序列：
>O95866
MAVFLQLLPLLLSRAQGNPGASLDGRPGDRVNLSCGGVSHPIRWVWAPSFPACKGLSKGR
RPILWASSSGTPTVPPLQPFVGRLRSLDSGIRRLELLLSAGDSGTFFCKGRHEDESRTVL
HVLGDRTYCKAPGPTHGSVYPQLLIPLLGAGLVLGLGALGLVWWLHRRLPPQPIRPLPRF
APLVKTEPQRPVKEEEPKIPGDLDQEPSLLYADLDHLALSRPRRLSTADPADASTIYAVV
V
>Q7Z602
MPGHNTSRNSSCDPIVTPHLISLYFIVLIGGLVGVISILFLLVKMNTRSVTTMAVINLVV
VHSVFLLTVPFRLTYLIKKTWMFGLPFCKFVSAMLHIHMYLTFLFYVVILVTRYLIFFKC
KDKVEFYRKLHAVAASAGMWTLVIVIVVPLVVSRYGIHEEYNEEHCFKFHKELAYTYVKI
INYMIVIFVIAVAVILLVFQVFIIMLMVQKLRHSLLSHQEFWAQLKNLFFIGVILVCFLP
YQFFRIYYLNVVTHSNACNSKVAFYNEIFLSVTAISCYDLLLFVFGGSHWFKQKIIGLWN
CVLCR
>Q8N1M1
MTVTYSSKVANATFFGFHRLLLKWRGSIYKLLYREFIVFAVLYTAISLVYRLLLTGVQKR
YFEKLSIYCDRYAEQIPVTFVLGFYVTLVVNRWWNQFVNLPWPDRLMFLISSSVHGSDEH
GRLLRRTLMRYVNLTSLLIFRSVSTAVYKRFPTMDHVVEAGFMTTDERKLFNHLKSPHLK
YWVPFIWFGNLATKARNEGRIRDSVDLQSLMTEMNRYRSWCSLLFGYDWVGIPLVYTQVV

其他的位置也给了类似的样例。好了，来个测试样例：
>P60880
MAEDADMRNELEEMQRRADQLADESLESTRRMLQLVEESKDAGIRTLVMLDEQGEQLERI
EEGMDQINKDMKEAEKNLTDLGKFCGLCVCPCNKLKSSDAYKKAWGNNQDGVVASQPARV
VDEREQMAISGGFIRRVTNDARENEMDENLEQVSGIIGNLRHMALDMGNEIDTQNRQIDR
IMEKADSNKTRIDEANQRATKMLGSG

请问他位于哪个位置？

你用肉眼是看不出来，对不对？跟谁也不太像，那怎么办？字符串比较像不像太难了。

“机器学习”的核心思想就是把这些难于比较的东西（比如字符串、语音信号、图片等等），统统转化为向量（向量就是矩阵的一行，就是几个数）。

字符串比较难计算相似度，但向量很容易啊，欧氏距离就可以了，对不对？

把字符串（或者图片、语音信号）转化成向量的过程就称为“特征提取”(feature extraction)，这个向量就称为特征(feature)

怎么提啊？最简单的：统计一下每个字母出现的频率。蛋白质序列中只有20个字符（注意不是26个，氨基酸只有20种）每个字母出现的频率计算一下（比如A出现了10次，序列长度为100，那就是0.1咯），一条序列就变成了一个20维的向量（就是20个数值），对不对？

你把训练集中所有的样本都转化成20维向量，测试集的样本也转化成向量，计算一下他们的欧氏距离，测试集的样本和训练集中的哪个最近，就猜是跟他一样的位置。可以吧？这种预测（分类）方法就称为 “最近邻”。

当然这种分类算法比较土，还有很多高大上的算法，如：支持向量机、随机森林、集成学习。

好了，如果明白了，自己上网查一查以下概念：
分类、训练集、测试集、样本、特征（属性）、交叉验证（这个我没讲，自己理解一下）

后续工作：

1. 数据收集。要整理好细胞一共有多少个位置，每个位置上都有哪些蛋白质，有没有哪些蛋白质出现在多个位置？

2. 算频率这个特征提取算法太土了，有很多高大上的办法，前面的帖子有很多现成的源代码，只需要运行就可以。

3. 最近邻这种分类器也太土了，也有不少算法，也有现成的软件，如weka。

4. 你的工作就是尝试，哪种特征配合哪种分类器效果最好？试出来就行。这就叫做实验。

多说几句：

别觉得蛋白质这玩意没意思又没用，实际上在教你如何用“机器学习”的思想进行预测，“黄色图片识别”、“语音识别”、“指纹识别”、“复杂仪器的故障诊断”用的都是一样的方法。你学会了这个，可以去干你感兴趣的事情。只不过那些工作要么数据难获得、要么论文不好发。菜鸟阶段，先干点经济实惠的，学有所成了你再去整高大上的。

zouquan · 发表于 2014-10-27 16:40:15

极限学习

		自动登录	找回密码
密码			注册

liaozhijun liaozhijun 当前离线积分 87	19^# 发表于 2016-9-1 09:00:07 \| 只看该作者提示: 该帖被管理员或版主屏蔽
liaozhijun liaozhijun 当前离线积分 87
	回复支持反对使用道具举报

蛋白质分类相关资源(持续更新)

本帖子中包含更多资源

相关帖子

本帖子中包含更多资源