标题: 常用的不平衡分类数据处理方法 [打印本页] 作者: zouquan 时间: 2015-11-11 15:40 标题: 常用的不平衡分类数据处理方法 正反例不平衡的分类问题,可以有不少策略,如:
1. 对反例分块,每一块和正例组成一个平衡的数据集,用不同的分类器建model,最后投票;
Ref: Li Song, Dapeng Li, Xiangxiang Zeng, Yunfeng Wu, Li Guo, Quan Zou. nDNA-prot: Identification of DNA-binding Proteins Based on Unbalanced Classification. BMC Bioinformatics. 2014, 15:298
Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539-550.
2. 现在是随机在反例中采样,其实还可以不随机,用遗传算法之类的,找出一个最佳的反例子集和正例组成平衡的训练集;
Ref: Xiangxiang Zeng, Sisi Yuan, Xianxian Huang, Quan Zou. Identification of cytokine via an improved genetic algorithm. Frontiers of Computer Science. 2015, 9(4): 643-651.
3. 用记事本打开libsvm训练出的model,实际上就是支持向量(可以理解成关键的样本),每次把出现在支持向量中的反例样本留下,没有出现在支持向量中的反例样本删除。一点点缩小反例集,最后达到平衡。
Ref: Xu J R, Zhang J X, Han B C, et al. CytoSVM: an advanced server for identification of cytokine-receptor interactions. Nucleic acids research, 2007, 35(suppl 2): W538-W542.
4. 依次随机从反例集中选择一些反例,对剩余的反例进行分类,分错的留下,分对的删除;最后那些总被分错的反例组成最终的反例集合。
Ref:Leyi Wei, Minghong Liao, Yue Gao, Rongrong Ji, Zengyou He, Quan Zou. Improved and Promising Identification of Human MicroRNAs by Incorporating a High-quality Negative Set. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2014, 11(1):192-201