机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3474|回复: 6
打印 上一主题 下一主题

Weka和Mulan使用过程中的小Tips

[复制链接]
跳转到指定楼层
楼主
发表于 2014-3-27 23:33:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 chenwq 于 2014-4-8 16:37 编辑

      实验室科研工作中有时候会遇到某些特征选择算法Weka本身不具备,要从其他软件中得到选择后的特征的情况。例如,MID/MIQ特征选择算法。此外,使用非Weka自带特征选择算法选择特征之后,又想使用Weka进行下一步分类,那么该怎么办?

      1. 使用MID等做完特征选择之后,将特征索引位置提高给Weka,Weka按照指定特征的索引位置删除
      

      完整代码示例见附件remove_feature_by_indices.java

      2. 将做完特征选择后的数据另存为Arff文件,用于下一步使用
      

      完整代码示例见附件save_load_from_arff.java


      模型选择是分类任务的重要步骤,好的模型参数能够起到锦上添花的作用。Weka提供了方便的UI接口用于做暴力搜索(GridSearch)
      1. 以我们经常使用的RandomForest为例: 从Weka的Classify->meta->CVParameterSearch,选择CVParameterSearch:
      
      
      2. 设置搜索参数:
      
      
      其中,I为RF的参数简称(这里表示使用多少棵树),"10 100 5"表示参数搜索范围从10到100,即[10, 100), 步长是5。也就是说I的取值遍历了10, 15, 20, 25, ..., 95, 99这个序列

      注意,这里可以通过Add按钮设置多组搜索参数!!


      多标记是我们实验室的一个研究工作,与多分类不大一样,多标记问题中一个样本可以同时具有多个类标。处理多标记问题时,有一个与Weka同样广为流行的工具,Mulan。
      Mulan通过修改样本(问题转化法)或者拓展二分类算法本身来做多标记分类。输出结果与分类问题有所不同,多标记输出有3部分:
      Confidence:abel0: 0.1628±0.0369 label1: 0.5250±0.1321 label2: 0.1679±0.0523 label3: 0.0923±0.010,其中的数值部分称为confidence,是预测该样本与相应label相关的概率(the probability of each label being positive)
      Ranking: 将上述confidence排序之后,即为ranking的值。上面confidence对应的ranking为[2, 4, 3, 1]
      Bipartition: 即样本与标记相关不相关,从上述对应confidence可以得到(设置概率阈值为0.5),Bipartition应为[0, 1, 0, 0]

      相比Weka,Mulan的文档很少,但是Mulan提供了很方便的example代码以及在经典论文的实验部分代码,在experiments里面,通过修改部分参数或者代码,就能够迁移到我们的科研任务中了
      

      这部分代码也可以在附件的Referenced Libraries里面也有提供。

      Mulan的特征选择方法来自Weka,下面看看怎么使用GainRatio做特征选择:
      

      可运行完整代码见附件gain_ratio_feature_selection.java

      
      
     
      
      
      
      

      
      
         
      

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2014-3-30 21:35:19 | 只看该作者
赞。鉴于你获得了10000元丰厚奖金,就不奖励了~~~
回复 支持 反对

使用道具 举报

板凳
发表于 2014-4-8 10:30:06 | 只看该作者
好像有限制,不能看到图片也不能下载Demo
我也是研究Multi-Label Learning的,也用Mulan,不知能否和楼主交流。
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2014-4-8 16:38:23 | 只看该作者
easonlv 发表于 2014-4-8 10:30
好像有限制,不能看到图片也不能下载Demo
我也是研究Multi-Label Learning的,也用Mulan,不知能否 ...

请您再试试?
回复 支持 反对

使用道具 举报

5#
发表于 2014-4-8 23:28:58 | 只看该作者
chenwq 发表于 2014-4-8 16:38
请您再试试?

哈哈,这次看到了,谢谢您,后面希望与您共同学习和交流!
回复 支持 反对

使用道具 举报

6#
 楼主| 发表于 2014-4-9 10:22:10 | 只看该作者
easonlv 发表于 2014-4-8 23:28
哈哈,这次看到了,谢谢您,后面希望与您共同学习和交流!

不客气。希望本贴对你有一些帮助。
回复 支持 反对

使用道具 举报

7#
发表于 2014-4-29 21:58:41 | 只看该作者
赞! 多标记分类!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-5-19 04:59 , Processed in 0.071526 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表