weka中投票分类器应用

xmubingo · 发表于 2011-9-2 15:21:16

本帖最后由 xmubingo 于 2011-9-2 15:25 编辑

投票的目的就是利用多数占优，少数服从多数的思维。认为多数人的决定应该是正确的，但是也有误判的情况。
假设使用分类器为C1,C2,C3，类别有N类。
（1）从分类结果出发——重写classifyInstance函数判断每个分类器的结果，以获得票数最多的类别作为返回值。
特殊情况：类别得到的票数一样多，这种情况可以读取每个分类器的distributionForInstance概率分布，对每个类别得到的概率值进行简单求和，将值最大的类别作为返回值。
（2）从概率分布出发——重写distributionForInstance函数
不管每个分类器的最终结果是什么。读取每个分类器的distributionForInstance概率分布，对每个类别得到的概率值进行简单求和，作为返回值。
（3）从权重出发——重写distributionForInstance函数
单个分类器进行交叉验证的结果中C3的效果最好，C1,C2次之，那么可以使用0.3 0.3 0.4的权重。
（4）对于多种投票方法的投票
对于多种投票策略得出的结果再进行投票。

大家还有没有别的做法？

zouquan · 发表于 2011-9-2 17:01:08

很好，如果你有时间可以总结一下目前的投票策略，写一篇论文
可以从 2类分类（binary classification），多类分类（multiple classification？我不保证正确）、不平衡数据分类（imbalance data classification）几个方面总结
另外，自己也可以提出投票策略，多个分类器的缺点在于训练时间长，目前云计算如火如荼，mahout结合了hadoop与weka，我们是不是可以想想如何利用mahout来处理scalable data？能开发出软件（类似于libSVM）或能集成到weka/mahout中的java程序就更棒了！

zouquan · 发表于 2011-9-2 17:04:08

效果（performance）可以用UCI test data来测试，另外我们课题组也积攒了部分生物信息学数据（各种数据规模的）

我以前一直想做这方面的工作，但总有更重要更值得做的事情，所以一直拖到现在。希望各位熟悉weka的同学，谁如果有精力，可以去尝试一下。

xmubingo · 发表于 2011-9-3 13:09:46

现在主要遇到的问题应该是我们在内部用机群计算很有效果。如何让用户利用到我们的机群计算。

比如，我们做的软件里面集成了hadoop，但是，用户那端拿到程序之后还要配置hadoop环境，人家说不定嫌太麻烦而放弃。并且，人家单机跑hadoop的速度说不定没有多线程来得快。
那么，我们可以建个web server，将用户提交的数据用我们的机群算，算好了再给用户。这样也遇到一个问题，用户提交给我们的数据量必然不大，因为用http提交不了很大的数据。

如果要将机群技术引入到我们的论文中，必须要先解决这些问题。

zouquan · 发表于 2011-9-3 13:50:55

xmubingo 发表于 2011-9-3 13:09
现在主要遇到的问题应该是我们在内部用机群计算很有效果。如何让用户利用到我们的机群计算。

比如，我们 ...

这个问题很好，毕竟用户有机群和hadoop环境的很少；所以我认为我们以后开发的软件应该有3个版本：
1. web server，供用户测试用，提供小数据可以很快处理
2. 多线程版本，大多数用户可以有1个Linux多核服务器，或者较好的单机，那么多线程很有用；
3. hadoop的程序，要求：我们上传到亚马逊上可以很容易运行。请文瑞试一下我们的程序上传亚马逊可否运行，如果需要花钱，等我回去后用我的visa卡。大多数用户没有机群，但一般都有visa卡，他们可以把软件上传到亚马逊，特别是生物信息学软件和网络爬虫，生物信息学软件需要的常用数据（如人类基因组数据），亚马逊上都有，不需长时间上传，然后挖掘出的结果数据很小，很容易下载。所以，这学期我们第一个任务就是让我们的hadoop程序支持亚马逊！

zouquan · 发表于 2011-9-3 13:52:09

当然，如果有精力，再开发出支持GPU的程序就更好了，这样，如果用户有高性能显卡，也可以有用。

terence · 发表于 2011-9-3 17:27:09

我乱说的，可不可以对每一个分类器建立一个概率模型，描述分类器容易作出什么错误的判断。然后用这个概率模型做结果调整？

xmubingo · 发表于 2011-9-12 09:54:41

terence 发表于 2011-9-3 17:27
我乱说的，可不可以对每一个分类器建立一个概率模型，描述分类器容易作出什么错误的判断。然后用这个概率模 ...

好主意，我还在摸索中..

zouquan · 发表于 2011-12-1 14:01:15

学习一下这篇论文，尤其是第一部分写的很好

		自动登录	找回密码
密码			注册

weka中投票分类器应用

本帖子中包含更多资源