机器学习和生物信息学实验室联盟

标题: 蛋白质分类相关资源(持续更新) [打印本页]

作者: zouquan 时间: 2013-5-21 10:58
标题: 蛋白质分类相关资源(持续更新)
注意：本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流。菜鸟先去15楼看一下。

1. 问题和数据
   1.1 综述
      1.1.1 综述论文（问题）  [attach]1467[/attach]
      1.1.2 benmark（数据）[attach]1691[/attach][attach]1692[/attach][attach]1693[/attach]

   1.2 SCOP 蛋白质结构数据库 http://astral.berkeley.edu/
            本实验室在该数据库上的工作见 HPFP (发表在PLoS ONE)，邹莹同学的毕业论文 [attach]1468[/attach]

   1.3 沈红斌老师课题组，相关数据我已下载，放在205FTP的 /home/share/数据/生物信息学数据/沈红斌数据目录下

   1.4 使用Chou的PseAAC特征进行蛋白分类的相关论文见：http://en.wikipedia.org/wiki/Pseudo_amino_acid_composition

   1.5 膜蛋白识别和分类
      1.5.1 李旭斌同学的毕业论文[attach]1589[/attach]
      1.5.2 膜蛋白数据库的论文[attach]1607[/attach]

   1.6 蛋白质同源检测，见下方跟帖

   1.7 识别DNA binding proteins,可以参考南邮吴建盛老师的相关论文

   1.8 酶分类. paper1,

   1.9 蛋白质相互作用预测，数据1

   1.10 识别多肽聚合蛋白. paper1(有软件)

2. 特征提取方法
   2.0 集成的web server和软件 http://protrweb.scbdd.com/          刘滨老师Pse-in-one Bioseq-Analysis 宋江宁老师iFeature  iLearn，还有 PyFeat，Seq2Feature,  BioSeqVISA

   2.1 基于PSSM矩阵
   2.1.1 利用BLAST+计算PSSM矩阵方法见此贴

   2.1.2(该方法目前已停用) 将PSSM的每行求平均值，得到20维特征的Java批量运行代码见 http://datamining.xmu.edu.cn/~cwc/20feature/Get20.htm

   2.1.3 董启文Bioinformatics2009方法，见跟帖

   2.1.4 刘滨Bioinformatics2014方法，见跟帖

2.2 基于组成与理化特征
   2.2.1 基于理化特征的188维特征（优点：运算速度快，适合做web server），Java代码[attach]1466[/attach] （参考：SVM-Prot）注意：输入序列需要大写。具体每一维的意义见下方跟帖。

   2.2.2 PseAAC-Builder, [attach]1586[/attach], 放到服务器上解压缩后，直接到prebin文件夹下，将蛋白质的fasta文件考入，例如2.fasta  [attach]1587[/attach]（注意格式：fasta的标题行应该是>Q9ZW3|1这样的格式，其中1是类别标签。INPUT_FILE should be a valid FASTA format file. The additional restriction is in the annotation line, which was always started by ">". Every annotation line in the input FASTA file must contain two and only two fields, which are separated by "|". The first field is the id of the sequences, which can be gi numbers, uniprot id, accession numbers or anything that can identify the sequence uniquely in the FASTA file. The second field is an integer, which is recognized as the class label when you export the result. If you do not need a class label, simply put a "0" in this field.）

然后运行：./pseb -i 2.fasta -o out.txt -t 0

   生成10维特征文件out.txt；如果-t 1,则生成20维特征文件。具体可以./pseb --help

#关于PseAAC，还有沈红斌老师的web server
#PseAAC-General,[attach]1937[/attach]

2.3 n-gram见下方跟帖, k-skip见该贴

2.4 二级结构预测方法见下方跟帖

2.5 基于PPI网络的特征，[attach]2075[/attach]

3. 分类器相关

   3.1 deep learning code

   3.2 libD3C (本实验室开发), 可以加入weka的版本，

   3.3 libSimpleVote （李旭斌开发，具体参考他的毕业论文6.2部分）

   3.4 极限学习（参见下面跟帖）

   3.5 PCVM, 见该帖

   3.6 PU-learning（训练集是正例p和未标记样本u），参见 https://www.cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html

4. 可供实验比较的软件、网站

   4.0 与PSI-BLAST比较，参考http://bbs.malab.cn/forum.php?mod=viewthread&tid=1204

   4.1 细胞因子 (Cytokine)的识别
         CytoKey
   4.2 多肽聚合预测
      ProA
   4.3 DNA binding Protein预测
      iDNA-Prot
   4.4 亚细胞定位
      杜朴风老师的工作
5. 衡量指标

   5.1 ROC和ROC50，见跟帖

6. 数据预处理
   6.1 找出相似度高的序列，可以尝试CD-HIT （使用方法见楼下回帖）和 PISCES
            Ref：Li, W.; Godzik, A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 2006, 22, 1658–9
   6.2 降维技术
      6.2.0 一篇很好的综述：http://bioinformatics.oxfordjour ... 23/19/2507.full.pdf
      6.2.1 mRMR：http://penglab.janelia.org/proj/mRMR/ ，参考该帖子
      6.2.2 OMP：http://www.cs.technion.ac.il/~ronrubin/software.html
      6.2.3 论文1
      6.2.4 MDR (multifactor-dimensionality reduction)
      6.2.5 t_SNE http://homepage.tudelft.nl/19j49/t-SNE.html
      6.2.6 MRMD(本课题组开发：链接)
                     参考文献：Quan Zou, Jiancang Zeng, Liujuan Cao, Rongrong Ji. A Novel Features Ranking Metric with Application to Scalable Visual and Bioinformatics Data Classification. Neurocomputing. 2016, 173: 346-354

作者: zouquan 时间: 2013-5-22 17:15
最新论文
[attach]1471[/attach]

作者: xujinghao 时间: 2013-5-23 10:23
提示: 该帖被管理员或版主屏蔽

作者: cwc 时间: 2013-6-13 20:01
标题: 蛋白质远距离同源探测数据集
本帖最后由 cwc 于 2013-6-13 20:17 编辑

   数据集来自于http://noble.gs.washington.edu/proj/svm-pairwise/ ，是蛋白质远距离同源检测的权威数据集。

数据说明
data文件夹:下面分为54个子文件夹，代表54组数据。每组数据下面有1.fa、2.fa、3.fa、4.fa，这四个文件提取了table中的4种数据的sequence。

   另外由于附件大小限制，无法把所有的内容打包，这里再对网站上的数据说明一下
sequence file:所有的fasta数据
Tab-delimited table :table中有54列，代表有54组分类数据，1表示正例训练，2反例训练，3正例测试，4反例测试。表示每条蛋白质也同时作为其他组的反例数据，因此反例样本远远大于正例样本。
   总结一下，感兴趣的同学如果要做的话，需要把4个文件分别提取特征，类标分别为1、-1、1、-1。然后1和2合并为训练集，3和4合并为测试集。

刘滨博士对该问题有过研究,论文附在附件。
ps.因为正例跟反例是非常不平衡的，所以评价指标采用ROC和ROC50。所以同学们不要一看觉得准确率很高就以为效果很好了哦

作者: cwc 时间: 2013-6-22 09:35
标题: 蛋白质n-gram特征提取方法
本帖最后由 cwc 于 2013-11-28 10:05 编辑

N-Gram模型
   N-Gram是大词汇连续语音识别中常用的一种语言模型，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
蛋白质N-Gram
   对应于蛋白质序列，由于蛋白质有20中氨基酸组成，因此若n=3，排列组合总共有20*20*20=8000种，然后在蛋白质序列中查找这8000种组合的出现次数或者频率。这里，我稍微做了点改进，当n=3时n=1、n=2的组合也加进去，也就是8000+400+20=8420种特征。
使用方法
      使用时只需敲命令java -jar n-gram_pro.jar n inputpath outputpath method
其中n为长度，一般为2或3，method为0时计算次数，为1时计算频率。输入为fasta格式。

作者: xujinghao 时间: 2013-6-24 10:48
关于ROC以及ROC50的计算，增加了ROC50的程序以及算法
[attach]1519[/attach]

注意：本代码的ROC计算方法没有考虑到多个点的预测值相同时的情况，因此对于预测精度不高的分类器（比如10棵树的RF），数值会与weka的计算结果有较大偏差，以weka为准。
The ROC50 score is the area under the ROC curve, up to the fi rst 50 false positives

作者: Snow_Bubble 时间: 2013-8-2 21:30
复旦董启文的方法：
在PSSM矩阵的基础上，分AC和ACC两种方法。
AC方法测量同一属性的相关性。即在PSSM矩阵中，每行上每个数和相隔距离为1、2、……、LG的两个数计算相关性，靠近两边的做一定特殊处理，产生的维数是20*LG。
ACC方法测量不同属性的相关性，产生的维数是380*LG，再加上AC法的20*LG维，最后得到的是400*LG维。
董启文的代码在不同的数据集上做实验得到结果是LG取8-10为佳，最好取10，不过这有可能会根据数据集、分类器等其他因素改变。
董启文的代码网址：http://www.iipl.fudan.edu.cn/demo/accpkg.html。里面有readme，不过是英文的，下面做一点使用说明。

　　将main.cpp文件，用VS2008或类似软件打开。以08为例，新建Win32项目，在源文件中导入已有项即main.cpp，运行生成可执行文件，在工程的Debug文件夹中可以找到。重命名为AC.exe。
　　如果要做ACC方法，则要先再源代码中去掉#define AC这一句，生成的文件可以命名为ACC.exe。
　　新建一个JAVA工程，做以下几步：
　　1、写bat文件，因为PSSM矩阵每一个序列生成一个文件，会很多。PSSM矩阵生成参见2.1。bat文件内容为：
         AC.exe LG pssm矩阵文件名 out文件名
         或
         ACC.exe LG pssm矩阵文件名 out文件名
****建议****：矩阵文件名和out文件名都带上一层文件路径，多建一个文件夹，否则会很乱。
　　2、把AC.exe或ACC.exe和所有PSSM矩阵放在这个工程里面，运行所有的bat文件，每个文件得到一条属性。
　　3、合并得到的文件夹中所有个文件，得到特征输出。
4、上一步做完后可以多写一个方法来删除那些很大的文件夹，也可以不删。
　　5、参照按其他方法得到的arff文件（不包含文件头也就是@部分），来写每一条属性的class。
6、最后再加上arff文件头后就能成为标准arff文件了。

作者: zouquan 时间: 2013-8-11 23:51
一般说来，在论文实验部分，除了交叉验证论文提出的分类方法有效之外，还应该做一些更深入的分析。参考下面一个期刊（ Protein & Peptide Letters， PPL）主编给客座编辑的信。

This higher standard is the expectation that such papers will contain a correlation of computational predictions with observations in experimental studies of proteins. I'm sure you will agree that for a computational method to be considered valid it should be able to demonstrate that it works for a known protein. For example, if you use a set of N known proteins to derive information about where phosphate is likely to be added and develop a program to predict the same property for unknown proteins, the program should first be shown to make correct predictions for several other examples of structurally known proteins that were not part of the first set from which the rules were developed. Unfortunately, I have seen many manuscripts submitted to PPL in the past few years that leave out this important correlation and have had to reject them with advice to the authors to consider revising and re-submitting with the inclusion of the additional information. I request that you include some discussion of this in the letter that you sent to all potential authors so that they prepare their manuscripts while following this expectation.

作者: RockRabbit 时间: 2013-8-27 21:55
由于在蛋白质分类问题中，进行特征提取时时常用到二级结构特征，我在这边介绍一种常用的二级结构软件PSIPRED
的安装方法，希望对同学们有用。

蛋白质二级结构预测软件 -- PSIPRed 3.3

(1) 需要先安装BLAST+ ，并设置环境变量（在linux环境下，环境变量在/etc/profile下设置），下载BLAST+： ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

(2) 下载PSIPRED 3.3 ： http://bioinfadmin.cs.ucl.ac.uk/downloads/psipred/

(3) 对于用到的nr 蛋白质数据库，需要事先进行数据库格式化（format）：在linux操作下，cd 到 BLAST+/bin目录，运行命令： # makeblastdb -dbtype prot -in uniprot_sprot.fasta -input_type fasta -title nr -out nr ，将生成的相关文件拷到PSIPRED3.3目录下的BLAST+ 文件夹。参考：forum.php?mod=viewthread&tid=896
注：也可到ncbi的ftp直接下载format好的nr文件，70服务器已format好的nr和nt位于/backup2/blastdb/ 目录下

(4)  开始安装PSIPRED，运行下列命令：
      tar -zxvf  *.tar.gz  file
      cd  psipred
      cd  src
      make
      make install

(5) 到psipred目录下的BLAST+文件夹中，打开文件runpsipredplus，重新设置路径：
      dbname # 步骤（3）得到的格式化后数据库的名称，一般用nr
   ncbidir #  BLAST+所安装的路径

(6)  ./runpsipredplus example.fasta
# 运行用到脚本tcsh，所以如果机子上没安装tcsh，运行命令： sudo apt-get install tcsh

作者: RockRabbit 时间: 2013-8-30 20:34
这是预测蛋白质结构以及相关其他特征的一些软件的网址，大家可以关注一下。

http://www.igb.uci.edu/tools/proteomics/psss.html

其中ACCPro是用来预测relative solvent accessibility特征。大家可以试着使用。

作者: 小妖儿 时间: 2013-10-8 00:06
有关CD-HIT
用来对聚类生物序列减少序列冗余，可以用于大规模数据的序列聚类，利用其构建非冗余（序列）蛋白数据库以提高搜索效率。

（1）CD-HIT软件下载地址：http://www.bioinformatics.org/project/filelist.php?group_id=350
基于cd-hit的主算法还有几个附属的工具：
cd-hit-2d比较两个蛋白数据库并报告其中的相似比对；
cd-hit-est对DNA/RNA数据库进行聚类；
cd-hit-2d比较两个核酸数据库。在下载的时候就都包括在内了。但暂时没有用到。

（2）在linux下操作：
tar xvf cdhit.gz
cd cdhit
make

（3）编译完成后把需要操作的文件放在cdhit目录下（cd-hit命令前一定要加./)
./cd-hit -i a.fa -o output.fa -c 0.4  -n 2
其中a.fa是你要输入的文件，output.fa是你要输出的文件，-c为sequence identity threshold，根据要求或者目的选择，默认为0.9，选择了-c之后-n会随之改变，如下：

-n 5 for thresholds 0.7 ~ 1.0

-n 4 for thresholds 0.6 ~ 0.7

-n 3 for thresholds 0.5 ~ 0.6

-n 2 for thresholds 0.4 ~ 0.5

还有一些其他参数，诸如-M 使用的内存大小，-T使用的进程数。

（4）会有3个文件生成：
.fa
.fa.bak.clstr
.fa.clstr
只有当所有的序列都比对完之后 .fa文件中才会有内容，即为所需文件
相似度0.4以下的CD-HIT参见
http://bbs.malab.cn/forum.php?mo ... =1464&fromuid=3

作者: 花思谢 时间: 2014-7-18 10:32
刘滨老师2014年的论文提供了两种提取氨基酸序列特征的方法。
他提供了一个web：web地址
如果不能正常使用的话，可以下载附件中的源码，里面有现成的程序可以直接调用。也有源码，可以自己修改。使用方法见文件里的readme。
我把其中一种改成java版的，在source code子文件夹下面，可做参考。

作者: zouquan 时间: 2014-10-27 16:40
极限学习

作者: zouquan 时间: 2015-12-18 00:22
菜鸟请看这个帖子：以亚细胞定位为例

蛋白质的亚细胞定位（蛋白质是分子，我们搞信息的人看就是个氨基酸字符串，跟DNA类似。蛋白质在细胞里到处都有，细胞你记得吧？有细胞质、细胞核、高尔基体、叶绿体等等，现在给你一个蛋白质序列，请用软件预测它是位于细胞质里，还是细胞核里，还是高尔基体里？还是到处都有？）（这工作很重要，药就是蛋白质，如果细胞核里有问题了，你吃的药只能到达细胞质，那岂不是白吃了？）

问题明白了吧？

下面介绍方法，这类方法统称“机器学习”(machine learning)方法。（虽然叫机器学习，但是和硬件一点关系没有，完全是算法程序）

给你个蛋白质序列ACMNKGYW，鬼知道他在细胞核里，还是叶绿体中。怎么办呢？你得先给点已知的样例啊，看看已知的样例有没有啥规律，然后才好预测未知的，对不对？这些已知的样本就称为“训练集”(training set)，那些要预测的就称为“测试集”(testing set)。

好了，给你点“训练集”，比如：
高尔基体里有下面这2个蛋白质序列：(>开头那行是蛋白质的名字，下面的就是蛋白序列)
>Q6IBS0
MAHQTGIHATEELKEFFAKARAGSVRLIKVVIEDEQLVLGASQEPVGRWDQDYDRAVLPL
LDAQQPCYLLYRLDSQNAQGFEWLFLAWSPDNSPVRLKMLYAATRATVKKEFGGGHIKDE
LFGTVKDDLSFAGYQKHLSSCAAPAPLTSAERELQQIRINEVKTEISVESKHQTLQGLAF
PLQPEAQRALQQLKQKMVNYIQMKLDLERETIELVHTEPTDVAQLPSRVPRDAARYHFFL
YKHTHEGDPLESVVFIYSMPGYKCSIKERMLYSSCKSRLLDSVEQDFHLEIAKKIEIGDG
AELTAEFLYDEVHPKQHAFKQAFAKPKGPGGKRGHKRLIRGPGENGDDS
>Q9UJV3
METLESELTCPICLELFEDPLLLPCAHSLCFSCAHRILVSSCSSGESIEPITAFQCPTCR
YVISLNHRGLDGLKRNVTLQNIIDRFQKASVSGPNSPSESRRERTYRPTTAMSSERIACQ
FCEQDPPRDAVKTCITCEVSYCDRCLRATHPNKKPFTSHRLVEPVPDTHLRGITCLDHEN

细胞核膜里面有这3个蛋白质序列：
>O95866
MAVFLQLLPLLLSRAQGNPGASLDGRPGDRVNLSCGGVSHPIRWVWAPSFPACKGLSKGR
RPILWASSSGTPTVPPLQPFVGRLRSLDSGIRRLELLLSAGDSGTFFCKGRHEDESRTVL
HVLGDRTYCKAPGPTHGSVYPQLLIPLLGAGLVLGLGALGLVWWLHRRLPPQPIRPLPRF
APLVKTEPQRPVKEEEPKIPGDLDQEPSLLYADLDHLALSRPRRLSTADPADASTIYAVV
V
>Q7Z602
MPGHNTSRNSSCDPIVTPHLISLYFIVLIGGLVGVISILFLLVKMNTRSVTTMAVINLVV
VHSVFLLTVPFRLTYLIKKTWMFGLPFCKFVSAMLHIHMYLTFLFYVVILVTRYLIFFKC
KDKVEFYRKLHAVAASAGMWTLVIVIVVPLVVSRYGIHEEYNEEHCFKFHKELAYTYVKI
INYMIVIFVIAVAVILLVFQVFIIMLMVQKLRHSLLSHQEFWAQLKNLFFIGVILVCFLP
YQFFRIYYLNVVTHSNACNSKVAFYNEIFLSVTAISCYDLLLFVFGGSHWFKQKIIGLWN
CVLCR
>Q8N1M1
MTVTYSSKVANATFFGFHRLLLKWRGSIYKLLYREFIVFAVLYTAISLVYRLLLTGVQKR
YFEKLSIYCDRYAEQIPVTFVLGFYVTLVVNRWWNQFVNLPWPDRLMFLISSSVHGSDEH
GRLLRRTLMRYVNLTSLLIFRSVSTAVYKRFPTMDHVVEAGFMTTDERKLFNHLKSPHLK
YWVPFIWFGNLATKARNEGRIRDSVDLQSLMTEMNRYRSWCSLLFGYDWVGIPLVYTQVV

其他的位置也给了类似的样例。好了，来个测试样例：
>P60880
MAEDADMRNELEEMQRRADQLADESLESTRRMLQLVEESKDAGIRTLVMLDEQGEQLERI
EEGMDQINKDMKEAEKNLTDLGKFCGLCVCPCNKLKSSDAYKKAWGNNQDGVVASQPARV
VDEREQMAISGGFIRRVTNDARENEMDENLEQVSGIIGNLRHMALDMGNEIDTQNRQIDR
IMEKADSNKTRIDEANQRATKMLGSG

请问他位于哪个位置？

你用肉眼是看不出来，对不对？跟谁也不太像，那怎么办？字符串比较像不像太难了。

“机器学习”的核心思想就是把这些难于比较的东西（比如字符串、语音信号、图片等等），统统转化为向量（向量就是矩阵的一行，就是几个数）。

字符串比较难计算相似度，但向量很容易啊，欧氏距离就可以了，对不对？

把字符串（或者图片、语音信号）转化成向量的过程就称为“特征提取”(feature extraction)，这个向量就称为特征(feature)

怎么提啊？最简单的：统计一下每个字母出现的频率。蛋白质序列中只有20个字符（注意不是26个，氨基酸只有20种）每个字母出现的频率计算一下（比如A出现了10次，序列长度为100，那就是0.1咯），一条序列就变成了一个20维的向量（就是20个数值），对不对？

你把训练集中所有的样本都转化成20维向量，测试集的样本也转化成向量，计算一下他们的欧氏距离，测试集的样本和训练集中的哪个最近，就猜是跟他一样的位置。可以吧？这种预测（分类）方法就称为 “最近邻”。

当然这种分类算法比较土，还有很多高大上的算法，如：支持向量机、随机森林、集成学习。

好了，如果明白了，自己上网查一查以下概念：
分类、训练集、测试集、样本、特征（属性）、交叉验证（这个我没讲，自己理解一下）

后续工作：

1. 数据收集。要整理好细胞一共有多少个位置，每个位置上都有哪些蛋白质，有没有哪些蛋白质出现在多个位置？

2. 算频率这个特征提取算法太土了，有很多高大上的办法，前面的帖子有很多现成的源代码，只需要运行就可以。

3. 最近邻这种分类器也太土了，也有不少算法，也有现成的软件，如weka。

4. 你的工作就是尝试，哪种特征配合哪种分类器效果最好？试出来就行。这就叫做实验。

多说几句：

别觉得蛋白质这玩意没意思又没用，实际上在教你如何用“机器学习”的思想进行预测，“黄色图片识别”、“语音识别”、“指纹识别”、“复杂仪器的故障诊断”用的都是一样的方法。你学会了这个，可以去干你感兴趣的事情。只不过那些工作要么数据难获得、要么论文不好发。菜鸟阶段，先干点经济实惠的，学有所成了你再去整高大上的。

作者: RockRabbit 时间: 2015-12-30 15:54
MEME软件可以帮助你找数据集中的functional motifs或者conservation motifs，可以通过这些motifs寻找些特征。供大家学习。

http://meme-suite.org/tools/meme

作者: zouquan 时间: 2016-3-16 23:49
二类分类（特殊蛋白识别）与PSI-BLAST比较效果

取出CD-HIT之后的正反例的fasta文件。可以分别修改一下每条序列的名字，使得从名字就能一下看出是正反例，然后把正反例合并在一起。

用合并在一起的fasta文件当成数据库，每一条序列依次当成查询文件，用PSI-BLAST进行查询，肯定自己和自己得分最高，得分第二高的如果和查询序列类别相同（同是正例，或同是反例），则正确，反之则错误。统计一下正反例的混淆矩阵。

作者: RockRabbit 时间: 2016-6-28 11:30
本帖最后由 RockRabbit 于 2016-8-10 08:42 编辑

一个在线的蛋白质各种特征提取网站：

http://bcb.ncat.edu/Features/

使用注意：输入的文件名必须得是.fasta结尾的。如果是做二类分类问题，正例文件可以命名为group1.fasta，反例文件可以命名为group2.fasta，所提取到的特征里的最后一项为他默认给你添加的类标签，例如group1.fasta所对应的特征文件中的类标签为0，group2.fasta所对应的特征文件中的类标签为1。多分类问题依次类推。

作者: liaozhijun 时间: 2016-9-1 09:00
提示: 该帖被管理员或版主屏蔽

作者: RockRabbit 时间: 2017-5-2 11:51
能生成21种基于PSSM的特征：

http://possum.erc.monash.edu/

作者: zouquan 时间: 2018-7-8 20:53
188D代码具体特征意义：
(有了这个解释，可以用降维的方法，降到最低，从而看看到底哪些特征可以对该蛋白做最有效的分类)

前20维，分别是20种氨基酸（按字母序ACDEFGHIKLMNPQRSTVWY），在序列中的含量。（出现个数/序列长度）

21-41维是疏水性特征
      /** calc_Hydrophobic();
      * string sP="RKEDQN";亲水
      * string sN="GASTPHY";中性（H应该去亲水）
      * string sH="CVLIMFW";疏水  （W应该去中性）
      */

21-23维分别是亲水、中性、疏水的氨基酸含量（出现个数/序列长度）

24-26维分别是转换频率，亲水/中性，亲水/疏水，中性/疏水，（出现转换次数/序列长度-1）

27-31维分别是亲水氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）
32-36维分别是中性氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）
37-41维分别是疏水氨基酸第1个，25%个，50%个，75%个和最后一个在序列中的位置，（第n位/序列长度）

下面特征类似

42-62是范德华力
/**  calc_Vanderwaal()
      * string sP="GASCTPD";
      * string sN="NVEQIL";
      * string sH="MHKFRYW";
      */

63-83极性
      /**  calc_Polarity1()
      * string sP="LIFWCMVY";
      * string sN="PATGS";
      * string sH="HQRKNED";
      */

84-104是极化性质
      /**  calc_Polarizability1()
      * string sP="GASDT";
      * string sN="CPNVEQIL";
      * string sH="KMHFRYW";
      */

105-125是电荷性质
      /** calc_Charge()
      * string sP="KR";
      * string sN="ANCQGHILMFPSTWYV";
      * string sH="DE";
      */

126-146是表面张力
      /**  calc_Surfacetension()
      * string sP="GQDNAHR";
      * string sN="KTSEC";
      * string sH="ILMFPWYV";
      */

147-167是二级结构
      /**  calc_Secondarystructure()
      * string sP="EALMQKRH";
      * string sN="VIYCWFT";
      * string sH="GNPSD";
      */
168-188是溶剂可及性
      /**  calc_Solventaccessibility()
      * string sP="ALFCGIVW";
      * string sN="RKQEND";
      * string sH="MPSTHY";
      */

作者: zouquan 时间: 2019-12-10 21:37
我们做这个研究的意义和流程：
以转运蛋白为例。正常的研究是不管是转运蛋白还是其他的什么蛋白，先收集数据，收集好了用前面那一套方法进行分类，分类效果好之后开始降维，找出最有用的特征，用两三个特征能不能把正反例分开？然后看看这些特征是什么含义，最后解释出转运蛋白和非转运蛋白在序列层面上的差异在哪？比如转运蛋白的疏水氨基酸都分布在中间XXXX。这种理化性质一般才是决定功能的因素，而BLAST是比对不出这种理化性质的相似和差异。所以要靠机器学习和计算机来从茫茫理化性质中试出这些关键因素。

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)