机器学习和生物信息学实验室联盟
标题:
请问对论坛主题进行实时分析该用什么方法
[打印本页]
作者:
endual
时间:
2013-10-10 17:08
标题:
请问对论坛主题进行实时分析该用什么方法
工作闲来无聊,突然想做这么一个分析系统。
需求:对论坛进行数据爬取,然后分析得出现阶段论坛的主题、关键词等。
这是不是属于文本分析范围? 请问有什么资料可以推荐下,有什么思路,谢谢。
目前会用的就是weka,libsvm这些传统的工具。
但是weka在数据量较大的情况下,会出现内存溢出情况。
作者:
zouquan
时间:
2013-10-10 17:46
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout
3. 用自己写的简单的分类器,比如knn
4. 高维数据或稀疏数据可以试试liblinear
作者:
endual
时间:
2013-10-11 00:04
zouquan 发表于 2013-10-10 17:46
大数据想分类的话,
1. 用大内存服务器、命令行模式调用weka
2. 用mahout
谢谢老师。
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2