|
注意:本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流。菜鸟先去15楼看一下。
1. 问题和数据
1.1 综述
1.1.1 综述论文(问题)
1.1.2 benmark(数据)
1.2 SCOP 蛋白质结构数据库 http://astral.berkeley.edu/
本实验室在该数据库上的工作见 HPFP (发表在PLoS ONE),邹莹同学的毕业论文
1.3 沈红斌老师课题组,相关数据我已下载,放在205FTP的 /home/share/数据/生物信息学数据/沈红斌数据 目录下
1.4 使用Chou的PseAAC特征进行蛋白分类的相关论文见:http://en.wikipedia.org/wiki/Pseudo_amino_acid_composition
1.5 膜蛋白识别和分类
1.5.1 李旭斌同学的毕业论文
1.5.2 膜蛋白数据库的论文
1.6 蛋白质同源检测,见下方跟帖
1.7 识别DNA binding proteins,可以参考南邮吴建盛老师的相关论文
1.8 酶分类. paper1,
1.9 蛋白质相互作用预测,数据1
1.10 识别多肽聚合蛋白. paper1(有软件)
2. 特征提取方法
2.0 集成的web server和软件 http://protrweb.scbdd.com/ 刘滨老师Pse-in-one Bioseq-Analysis 宋江宁老师iFeature iLearn,还有 PyFeat,Seq2Feature, BioSeqVISA
2.1 基于PSSM矩阵
2.1.1 利用BLAST+计算PSSM矩阵方法见 此贴
2.1.2(该方法目前已停用) 将PSSM的每行求平均值,得到20维特征的Java批量运行代码见 http://datamining.xmu.edu.cn/~cwc/20feature/Get20.htm
2.1.3 董启文Bioinformatics2009方法,见跟帖
2.1.4 刘滨Bioinformatics2014方法,见跟帖
2.2 基于组成与理化特征
2.2.1 基于理化特征的188维特征(优点:运算速度快,适合做web server),Java代码 (参考:SVM-Prot)注意:输入序列需要大写。具体每一维的意义见下方跟帖。
2.2.2 PseAAC-Builder, , 放到服务器上解压缩后,直接到prebin文件夹下,将蛋白质的fasta文件考入,例如2.fasta (注意格式:fasta的标题行应该是>Q9ZW3|1这样的格式,其中1是类别标签。INPUT_FILE should be a valid FASTA format file. The additional restriction is in the annotation line, which was always started by ">". Every annotation line in the input FASTA file must contain two and only two fields, which are separated by "|". The first field is the id of the sequences, which can be gi numbers, uniprot id, accession numbers or anything that can identify the sequence uniquely in the FASTA file. The second field is an integer, which is recognized as the class label when you export the result. If you do not need a class label, simply put a "0" in this field.)
然后运行:./pseb -i 2.fasta -o out.txt -t 0
生成10维特征文件out.txt;如果-t 1,则生成20维特征文件。具体可以./pseb --help
#关于PseAAC,还有沈红斌老师的web server
#PseAAC-General,
2.3 n-gram见下方跟帖, k-skip见该贴
2.4 二级结构预测方法见下方跟帖
2.5 基于PPI网络的特征,
3. 分类器相关
3.1 deep learning code
3.2 libD3C (本实验室开发), 可以加入weka的版本,
3.3 libSimpleVote (李旭斌开发,具体参考他的毕业论文6.2部分)
3.4 极限学习(参见下面跟帖)
3.5 PCVM, 见该帖
3.6 PU-learning(训练集是正例p和未标记样本u),参见 https://www.cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html
4. 可供实验比较的软件、网站
4.0 与PSI-BLAST比较,参考http://bbs.malab.cn/forum.php?mod=viewthread&tid=1204
4.1 细胞因子 (Cytokine)的识别
CytoKey
4.2 多肽聚合预测
ProA
4.3 DNA binding Protein预测
iDNA-Prot
4.4 亚细胞定位
杜朴风老师的工作
5. 衡量指标
5.1 ROC和ROC50,见跟帖
6. 数据预处理
6.1 找出相似度高的序列,可以尝试CD-HIT (使用方法见楼下回帖)和 PISCES
Ref:Li, W.; Godzik, A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 2006, 22, 1658–9
6.2 降维技术
6.2.0 一篇很好的综述:http://bioinformatics.oxfordjour ... 23/19/2507.full.pdf
6.2.1 mRMR:http://penglab.janelia.org/proj/mRMR/ ,参考该帖子
6.2.2 OMP:http://www.cs.technion.ac.il/~ronrubin/software.html
6.2.3 论文1
6.2.4 MDR (multifactor-dimensionality reduction)
6.2.5 t_SNE http://homepage.tudelft.nl/19j49/t-SNE.html
6.2.6 MRMD(本课题组开发:链接)
参考文献:Quan Zou, Jiancang Zeng, Liujuan Cao, Rongrong Ji. A Novel Features Ranking Metric with Application to Scalable Visual and Bioinformatics Data Classification. Neurocomputing. 2016, 173: 346-354
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|