机器学习和生物信息学实验室联盟

标题: 常用的不平衡分类数据处理方法 [打印本页]

作者: zouquan 时间: 2015-11-11 15:40
标题: 常用的不平衡分类数据处理方法
正反例不平衡的分类问题，可以有不少策略，如：
1. 对反例分块，每一块和正例组成一个平衡的数据集，用不同的分类器建model，最后投票；
Ref: Li Song, Dapeng Li, Xiangxiang Zeng, Yunfeng Wu, Li Guo, Quan Zou. nDNA-prot: Identification of DNA-binding Proteins Based on Unbalanced Classification. BMC Bioinformatics. 2014, 15:298
Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539-550.

2. 现在是随机在反例中采样，其实还可以不随机，用遗传算法之类的，找出一个最佳的反例子集和正例组成平衡的训练集；
Ref: Xiangxiang Zeng, Sisi Yuan, Xianxian Huang, Quan Zou. Identification of cytokine via an improved genetic algorithm. Frontiers of Computer Science. 2015, 9(4): 643-651.

3. 用记事本打开libsvm训练出的model，实际上就是支持向量（可以理解成关键的样本），每次把出现在支持向量中的反例样本留下，没有出现在支持向量中的反例样本删除。一点点缩小反例集，最后达到平衡。
Ref: Xu J R, Zhang J X, Han B C, et al. CytoSVM: an advanced server for identification of cytokine-receptor interactions. Nucleic acids research, 2007, 35(suppl 2): W538-W542.

4. 依次随机从反例集中选择一些反例，对剩余的反例进行分类，分错的留下，分对的删除；最后那些总被分错的反例组成最终的反例集合。
Ref:Leyi Wei, Minghong Liao, Yue Gao, Rongrong Ji, Zengyou He, Quan Zou. Improved and Promising Identification of Human MicroRNAs by Incorporating a High-quality Negative Set. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2014, 11(1):192-201

5. SMOTE，实际是升采样，生成一些正例达到平衡，见http://bbs.malab.cn/forum.php?mod=viewthread&tid=1208

作者: JinjinLi 时间: 2016-1-4 12:51
SMOTE

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)