机器学习和生物信息学实验室联盟
标题:
K-skip特征提取
[打印本页]
作者:
zjcdm
时间:
2014-5-10 03:49
标题:
K-skip特征提取
本帖最后由 zjcdm 于 2014-11-4 00:26 编辑
K-skip特征提取类似于N-gram,可以看成是字符串间隔k个长度的N-gram。一般最大间隔不超过2。间隔长度k=0时就是2-gram了。
举例:ACDE K=2(间隔小于k的全算)
结果:AC, AD, AE, CD, CE, DE
java -jar k-skip.jar -help 命令可以显示帮助。
程序的使用命令:java -jar k-skip.jar -i inputFile.fasta -o outputFile -k k_value -f isFusion -m method
inputFile.fasta就是输入的文件名,格式必须是fasta文件,程序有出错处理,报出出错的行号。
outputFile就是输出文件名。
k_value就是k-skip中k的值,可以取{0, 1, 2}。代表跳过字符的个数。
isFusion表示是否有特征的融合,就是特征拼接。从0~k的拼接,k就是输入的命令k_value。1表示拼接,0表示不拼接。
method表示的是频率或者频数,取值为{0, 1},0表示求得是频数,1表示频率。
作者:
xmubingo
时间:
2014-5-10 12:46
感谢分享!
文本数据和fasta数据的区别是fasta字典小,dna只有4个不同字符,氨基酸只有20个不同字符。
作者:
RockRabbit
时间:
2015-4-16 17:12
k值最好能扩展到比2大的数值,值得进一步改进
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2