机器学习和生物信息学实验室联盟

标题: 文本分类相关资料 [打印本页]

作者: cwc    时间: 2012-11-25 19:50
标题: 文本分类相关资料
本帖最后由 cwc 于 2012-11-26 16:11 编辑

路透社新闻语料,其中training、test为数量top k的十类。training-all、test-all为90类[attach]1171[/attach]
好用的统一词根工具,解压后输命令-inputpath -outputpath。[attach]1170[/attach]
读入文件到预处理再到生成TFIDF值的代码[attach]1172[/attach]
有兴趣的同学可以下载试试~
作者: twinsken    时间: 2012-11-26 00:35
其实UCI上有很多哦
作者: xmubingo    时间: 2012-11-26 13:11
twinsken 发表于 2012-11-26 00:35
其实UCI上有很多哦

能给个链接么,我需要各种预料。
作者: zouquan    时间: 2012-11-26 13:19
有没有生成TF-IDF的代码?以及对文本预处理的程序?都上传上来哦,方便大家后续使用
作者: twinsken    时间: 2012-11-26 13:58
http://archive.ics.uci.edu/ml/
tf-idf weka mahout  nltk都有 不过还是推荐python
作者: xmubingo    时间: 2012-11-26 14:04
twinsken 发表于 2012-11-26 13:58
http://archive.ics.uci.edu/ml/
tf-idf weka mahout  nltk都有 不过还是推荐python

非常感谢!




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2