机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2407|回复: 2
打印 上一主题 下一主题

请问对论坛主题进行实时分析该用什么方法

[复制链接]
跳转到指定楼层
楼主
发表于 2013-10-10 17:08:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
工作闲来无聊,突然想做这么一个分析系统。

需求:对论坛进行数据爬取,然后分析得出现阶段论坛的主题、关键词等。

这是不是属于文本分析范围? 请问有什么资料可以推荐下,有什么思路,谢谢。
目前会用的就是weka,libsvm这些传统的工具。

但是weka在数据量较大的情况下,会出现内存溢出情况。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2013-10-10 17:46:08 | 只看该作者
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout
3. 用自己写的简单的分类器,比如knn
4. 高维数据或稀疏数据可以试试liblinear
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2013-10-11 00:04:01 | 只看该作者
zouquan 发表于 2013-10-10 17:46
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout

谢谢老师。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-27 01:38 , Processed in 0.070502 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表