机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1418|回复: 0
打印 上一主题 下一主题

随机分割不平衡数据,形成平衡数据集

[复制链接]
跳转到指定楼层
楼主
发表于 2016-8-31 22:58:22 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
在处理不平衡数据时有很多方法,例如随机抽取反例与正例形成平衡数据。99服务器上的小脚本etract_unbalance.py可以帮助研究者快速做到这些。

假设:正例有100个,反例有1000个的不平衡数据文件。该程序可以从反例中随机抽取与正例数目相等的反例与正例组成小的平衡数据集,以此类推,直到抽取完全部的反例数据集。抽取剩下不够组成正例的数据将被忽略处理。小的平衡数据集将被编号,存放在该程序同目录下。

使用方法:
切换到脚本路径:
  1. cd /Bioinformatics_Machine_Learning/Machine_Learning/preprocess/ExtractUnblanceDataset
复制代码

上传不平衡数据后运行:
  1. python etract_unbalance.py -i input.arff -p 1 -n -1
复制代码

其中,-i后接包含所有正例和反例的arff文件,接受arff格式文件。-p后为正例标签;-n后为反例标签。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 13:27 , Processed in 0.067965 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表