机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
123
返回列表 发新帖
楼主: zouquan
打印 上一主题 下一主题

蛋白质分类相关资源(持续更新)

[复制链接]
21#
 楼主| 发表于 2018-7-8 20:53:00 | 只看该作者
188D代码具体特征意义:
(有了这个解释,可以用降维的方法,降到最低,从而看看到底哪些特征可以对该蛋白做最有效的分类)

前20维,分别是20种氨基酸(按字母序ACDEFGHIKLMNPQRSTVWY),在序列中的含量。(出现个数/序列长度)

21-41维是疏水性特征
        /**   calc_Hydrophobic();
         * string sP="RKEDQN";亲水
         * string sN="GASTPHY";中性 (H应该去亲水)
         * string sH="CVLIMFW";疏水  (W应该去中性)
         */

21-23维分别是亲水、中性、疏水的氨基酸含量 (出现个数/序列长度)

24-26维分别是转换频率,亲水/中性,亲水/疏水,中性/疏水,(出现转换次数/序列长度-1)

27-31维分别是亲水氨基酸第1个,25%个,50%个,75%个和最后一个在序列中的位置,(第n位/序列长度)
32-36维分别是中性氨基酸第1个,25%个,50%个,75%个和最后一个在序列中的位置,(第n位/序列长度)
37-41维分别是疏水氨基酸第1个,25%个,50%个,75%个和最后一个在序列中的位置,(第n位/序列长度)

下面特征类似

42-62是范德华力
/**  calc_Vanderwaal()
         * string sP="GASCTPD";
         * string sN="NVEQIL";
         * string sH="MHKFRYW";
         */

63-83极性
        /**  calc_Polarity1()
         * string sP="LIFWCMVY";
         * string sN="PATGS";
         * string sH="HQRKNED";
         */

84-104是极化性质
        /**  calc_Polarizability1()
         * string sP="GASDT";
         * string sN="CPNVEQIL";
         * string sH="KMHFRYW";
         */

105-125是电荷性质
        /** calc_Charge()
         * string sP="KR";
         * string sN="ANCQGHILMFPSTWYV";
         * string sH="DE";
         */

126-146是表面张力
        /**  calc_Surfacetension()
         * string sP="GQDNAHR";
         * string sN="KTSEC";
         * string sH="ILMFPWYV";
         */

147-167是二级结构
        /**  calc_Secondarystructure()
         * string sP="EALMQKRH";
         * string sN="VIYCWFT";
         * string sH="GNPSD";
         */
168-188是溶剂可及性
        /**  calc_Solventaccessibility()
         * string sP="ALFCGIVW";
         * string sN="RKQEND";
         * string sH="MPSTHY";
         */
回复 支持 反对

使用道具 举报

22#
 楼主| 发表于 2019-12-10 21:37:33 | 只看该作者
我们做这个研究的意义和流程:
以转运蛋白为例。正常的研究是不管是转运蛋白还是其他的什么蛋白,先收集数据,收集好了用前面那一套方法进行分类,分类效果好之后开始降维,找出最有用的特征,用两三个特征能不能把正反例分开?然后看看这些特征是什么含义,最后解释出转运蛋白和非转运蛋白在序列层面上的差异在哪?比如转运蛋白的疏水氨基酸都分布在中间XXXX。这种理化性质一般才是决定功能的因素,而BLAST是比对不出这种理化性质的相似和差异。所以要靠机器学习和计算机来从茫茫理化性质中试出这些关键因素。
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2025-6-7 14:03 , Processed in 0.077410 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表