机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2206|回复: 1
打印 上一主题 下一主题

常用的不平衡分类数据处理方法

[复制链接]
跳转到指定楼层
楼主
发表于 2015-11-11 15:40:22 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
正反例不平衡的分类问题,可以有不少策略,如:
1. 对反例分块,每一块和正例组成一个平衡的数据集,用不同的分类器建model,最后投票;
Ref: Li Song, Dapeng Li, Xiangxiang Zeng, Yunfeng Wu, Li Guo, Quan Zou. nDNA-prot: Identification of DNA-binding Proteins Based on Unbalanced Classification. BMC Bioinformatics. 2014, 15:298
Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for class-imbalance learning[J].  IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539-550.

2. 现在是随机在反例中采样,其实还可以不随机,用遗传算法之类的,找出一个最佳的反例子集和正例组成平衡的训练集;
Ref: Xiangxiang Zeng, Sisi Yuan, Xianxian Huang, Quan Zou. Identification of cytokine via an improved genetic algorithm. Frontiers of Computer Science. 2015, 9(4): 643-651.

3. 用记事本打开libsvm训练出的model,实际上就是支持向量(可以理解成关键的样本),每次把出现在支持向量中的反例样本留下,没有出现在支持向量中的反例样本删除。一点点缩小反例集,最后达到平衡。
Ref: Xu J R, Zhang J X, Han B C, et al. CytoSVM: an advanced server for identification of cytokine-receptor interactions. Nucleic acids research, 2007, 35(suppl 2): W538-W542.

4. 依次随机从反例集中选择一些反例,对剩余的反例进行分类,分错的留下,分对的删除;最后那些总被分错的反例组成最终的反例集合。
Ref:Leyi Wei, Minghong Liao, Yue Gao, Rongrong Ji, Zengyou He, Quan Zou. Improved and Promising Identification of Human MicroRNAs by Incorporating a High-quality Negative Set. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2014, 11(1):192-201

5. SMOTE,实际是升采样,生成一些正例达到平衡,见http://bbs.malab.cn/forum.php?mod=viewthread&tid=1208
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-1 23:37 , Processed in 0.068178 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表