机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2572|回复: 2
打印 上一主题 下一主题

K-skip特征提取

[复制链接]
跳转到指定楼层
楼主
发表于 2014-5-10 03:49:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 zjcdm 于 2014-11-4 00:26 编辑

K-skip特征提取类似于N-gram,可以看成是字符串间隔k个长度的N-gram。一般最大间隔不超过2。间隔长度k=0时就是2-gram了。
举例:ACDE  K=2(间隔小于k的全算)
         结果:AC, AD, AE, CD, CE, DE

java -jar k-skip.jar -help 命令可以显示帮助。

程序的使用命令:java -jar k-skip.jar -i inputFile.fasta -o outputFile -k k_value -f isFusion -m method

inputFile.fasta就是输入的文件名,格式必须是fasta文件,程序有出错处理,报出出错的行号。

outputFile就是输出文件名。

k_value就是k-skip中k的值,可以取{0, 1, 2}。代表跳过字符的个数。

isFusion表示是否有特征的融合,就是特征拼接。从0~k的拼接,k就是输入的命令k_value。1表示拼接,0表示不拼接。

method表示的是频率或者频数,取值为{0, 1},0表示求得是频数,1表示频率。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2014-5-10 12:46:43 | 只看该作者
感谢分享!

文本数据和fasta数据的区别是fasta字典小,dna只有4个不同字符,氨基酸只有20个不同字符。
回复 支持 反对

使用道具 举报

板凳
发表于 2015-4-16 17:12:05 | 只看该作者
k值最好能扩展到比2大的数值,值得进一步改进
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 10:15 , Processed in 0.068509 second(s), 18 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表