机器学习和生物信息学实验室联盟

标题: 请问对论坛主题进行实时分析该用什么方法 [打印本页]

作者: endual    时间: 2013-10-10 17:08
标题: 请问对论坛主题进行实时分析该用什么方法
工作闲来无聊,突然想做这么一个分析系统。

需求:对论坛进行数据爬取,然后分析得出现阶段论坛的主题、关键词等。

这是不是属于文本分析范围? 请问有什么资料可以推荐下,有什么思路,谢谢。
目前会用的就是weka,libsvm这些传统的工具。

但是weka在数据量较大的情况下,会出现内存溢出情况。
作者: zouquan    时间: 2013-10-10 17:46
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout
3. 用自己写的简单的分类器,比如knn
4. 高维数据或稀疏数据可以试试liblinear
作者: endual    时间: 2013-10-11 00:04
zouquan 发表于 2013-10-10 17:46
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout

谢谢老师。





欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2