本帖最后由 zjcdm 于 2014-11-4 00:26 编辑
K-skip特征提取类似于N-gram,可以看成是字符串间隔k个长度的N-gram。一般最大间隔不超过2。间隔长度k=0时就是2-gram了。
举例:ACDE K=2(间隔小于k的全算)
结果:AC, AD, AE, CD, CE, DE
java -jar k-skip.jar -help 命令可以显示帮助。
程序的使用命令:java -jar k-skip.jar -i inputFile.fasta -o outputFile -k k_value -f isFusion -m method
inputFile.fasta就是输入的文件名,格式必须是fasta文件,程序有出错处理,报出出错的行号。
outputFile就是输出文件名。
k_value就是k-skip中k的值,可以取{0, 1, 2}。代表跳过字符的个数。
isFusion表示是否有特征的融合,就是特征拼接。从0~k的拼接,k就是输入的命令k_value。1表示拼接,0表示不拼接。
method表示的是频率或者频数,取值为{0, 1},0表示求得是频数,1表示频率。
|