机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2980|回复: 5
打印 上一主题 下一主题

文本分类相关资料

[复制链接]
跳转到指定楼层
楼主
发表于 2012-11-25 19:50:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 cwc 于 2012-11-26 16:11 编辑

路透社新闻语料,其中training、test为数量top k的十类。training-all、test-all为90类
好用的统一词根工具,解压后输命令-inputpath -outputpath。
读入文件到预处理再到生成TFIDF值的代码
有兴趣的同学可以下载试试~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2012-11-26 00:35:44 | 只看该作者
其实UCI上有很多哦
回复 支持 反对

使用道具 举报

板凳
发表于 2012-11-26 13:11:31 | 只看该作者
twinsken 发表于 2012-11-26 00:35
其实UCI上有很多哦

能给个链接么,我需要各种预料。
回复 支持 反对

使用道具 举报

地板
发表于 2012-11-26 13:19:41 | 只看该作者
有没有生成TF-IDF的代码?以及对文本预处理的程序?都上传上来哦,方便大家后续使用
回复 支持 反对

使用道具 举报

5#
发表于 2012-11-26 13:58:49 | 只看该作者
http://archive.ics.uci.edu/ml/
tf-idf weka mahout  nltk都有 不过还是推荐python
回复 支持 反对

使用道具 举报

6#
发表于 2012-11-26 14:04:56 | 只看该作者
twinsken 发表于 2012-11-26 13:58
http://archive.ics.uci.edu/ml/
tf-idf weka mahout  nltk都有 不过还是推荐python

非常感谢!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 23:25 , Processed in 0.073799 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表