机器学习和生物信息学实验室联盟

标题: K-skip特征提取 [打印本页]

作者: zjcdm 时间: 2014-5-10 03:49
标题: K-skip特征提取
本帖最后由 zjcdm 于 2014-11-4 00:26 编辑

K-skip特征提取类似于N-gram，可以看成是字符串间隔k个长度的N-gram。一般最大间隔不超过2。间隔长度k=0时就是2-gram了。
举例：ACDE K=2(间隔小于k的全算)
结果：AC, AD, AE, CD, CE, DE

java -jar k-skip.jar -help 命令可以显示帮助。

程序的使用命令：java -jar k-skip.jar -i inputFile.fasta -o outputFile -k k_value -f isFusion -m method

inputFile.fasta就是输入的文件名，格式必须是fasta文件，程序有出错处理，报出出错的行号。

outputFile就是输出文件名。

k_value就是k-skip中k的值，可以取{0， 1， 2}。代表跳过字符的个数。

isFusion表示是否有特征的融合，就是特征拼接。从0~k的拼接，k就是输入的命令k_value。1表示拼接，0表示不拼接。

method表示的是频率或者频数，取值为{0, 1}，0表示求得是频数，1表示频率。

作者: xmubingo 时间: 2014-5-10 12:46
感谢分享！

文本数据和fasta数据的区别是fasta字典小，dna只有4个不同字符，氨基酸只有20个不同字符。

作者: RockRabbit 时间: 2015-4-16 17:12
k值最好能扩展到比2大的数值，值得进一步改进

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)