机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 5958|回复: 8
打印 上一主题 下一主题

weka中投票分类器应用

  [复制链接]
跳转到指定楼层
楼主
发表于 2011-9-2 15:21:16 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 xmubingo 于 2011-9-2 15:25 编辑

投票的目的就是利用多数占优,少数服从多数的思维。认为多数人的决定应该是正确的,但是也有误判的情况。
假设使用分类器为C1,C2,C3,类别有N类。
(1)从分类结果出发——重写classifyInstance函数
判断每个分类器的结果,以获得票数最多的类别作为返回值。
特殊情况:类别得到的票数一样多,这种情况可以读取每个分类器的distributionForInstance概率分布,对每个类别得到的概率值进行简单求和,将值最大的类别作为返回值。
(2)从概率分布出发——重写distributionForInstance函数
不管每个分类器的最终结果是什么。读取每个分类器的distributionForInstance概率分布,对每个类别得到的概率值进行简单求和,作为返回值。
(3)从权重出发——重写distributionForInstance函数
单个分类器进行交叉验证的结果中C3的效果最好,C1,C2次之,那么可以使用0.3 0.3 0.4的权重。
(4)对于多种投票方法的投票
对于多种投票策略得出的结果再进行投票。


大家还有没有别的做法?
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2011-9-2 17:01:08 | 只看该作者
很好,如果你有时间可以总结一下目前的投票策略,写一篇论文
可以从 2类分类(binary classification),多类分类(multiple classification?我不保证正确)、不平衡数据分类(imbalance data classification)几个方面总结
另外,自己也可以提出投票策略,多个分类器的缺点在于训练时间长,目前云计算如火如荼,mahout结合了hadoop与weka,我们是不是可以想想如何利用mahout来处理scalable data?能开发出软件(类似于libSVM)或能集成到weka/mahout中的java程序就更棒了!
回复 支持 反对

使用道具 举报

板凳
发表于 2011-9-2 17:04:08 | 只看该作者
效果(performance)可以用UCI test data来测试,另外我们课题组也积攒了部分生物信息学数据(各种数据规模的)

我以前一直想做这方面的工作,但总有更重要更值得做的事情,所以一直拖到现在。希望各位熟悉weka的同学,谁如果有精力,可以去尝试一下。
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2011-9-3 13:09:46 | 只看该作者
现在主要遇到的问题应该是我们在内部用机群计算很有效果。如何让用户利用到我们的机群计算。

比如,我们做的软件里面集成了hadoop,但是,用户那端拿到程序之后还要配置hadoop环境,人家说不定嫌太麻烦而放弃。并且,人家单机跑hadoop的速度说不定没有多线程来得快。
那么,我们可以建个web server,将用户提交的数据用我们的机群算,算好了再给用户。这样也遇到一个问题,用户提交给我们的数据量必然不大,因为用http提交不了很大的数据。

如果要将机群技术引入到我们的论文中,必须要先解决这些问题。
回复 支持 反对

使用道具 举报

5#
发表于 2011-9-3 13:50:55 | 只看该作者
xmubingo 发表于 2011-9-3 13:09
现在主要遇到的问题应该是我们在内部用机群计算很有效果。如何让用户利用到我们的机群计算。

比如,我们 ...

这个问题很好,毕竟用户有机群和hadoop环境的很少;所以我认为我们以后开发的软件应该有3个版本:
1. web server,供用户测试用,提供小数据可以很快处理
2. 多线程版本,大多数用户可以有1个Linux多核服务器,或者较好的单机,那么多线程很有用;
3. hadoop的程序,要求:我们上传到亚马逊上可以很容易运行。请文瑞试一下我们的程序上传亚马逊可否运行,如果需要花钱,等我回去后用我的visa卡。大多数用户没有机群,但一般都有visa卡,他们可以把软件上传到亚马逊,特别是生物信息学软件和网络爬虫,生物信息学软件需要的常用数据(如人类基因组数据),亚马逊上都有,不需长时间上传,然后挖掘出的结果数据很小,很容易下载。所以,这学期我们第一个任务就是让我们的hadoop程序支持亚马逊!
回复 支持 反对

使用道具 举报

6#
发表于 2011-9-3 13:52:09 | 只看该作者
当然,如果有精力,再开发出支持GPU的程序就更好了,这样,如果用户有高性能显卡,也可以有用。
回复 支持 反对

使用道具 举报

7#
发表于 2011-9-3 17:27:09 | 只看该作者
我乱说的,可不可以对每一个分类器建立一个概率模型,描述分类器容易作出什么错误的判断。然后用这个概率模型做结果调整?
回复 支持 反对

使用道具 举报

8#
 楼主| 发表于 2011-9-12 09:54:41 | 只看该作者
terence 发表于 2011-9-3 17:27
我乱说的,可不可以对每一个分类器建立一个概率模型,描述分类器容易作出什么错误的判断。然后用这个概率模 ...

好主意,我还在摸索中..
回复 支持 反对

使用道具 举报

9#
发表于 2011-12-1 14:01:15 | 只看该作者

学习一下这篇论文,尤其是第一部分写的很好

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-27 05:46 , Processed in 0.098896 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表