机器学习和生物信息学实验室联盟

标题: 随机分割不平衡数据，形成平衡数据集 [打印本页]

作者: shixiang 时间: 2016-8-31 22:58
标题: 随机分割不平衡数据，形成平衡数据集
在处理不平衡数据时有很多方法，例如随机抽取反例与正例形成平衡数据。99服务器上的小脚本etract_unbalance.py可以帮助研究者快速做到这些。

假设：正例有100个，反例有1000个的不平衡数据文件。该程序可以从反例中随机抽取与正例数目相等的反例与正例组成小的平衡数据集，以此类推，直到抽取完全部的反例数据集。抽取剩下不够组成正例的数据将被忽略处理。小的平衡数据集将被编号，存放在该程序同目录下。

使用方法：
切换到脚本路径：

cd /Bioinformatics_Machine_Learning/Machine_Learning/preprocess/ExtractUnblanceDataset

复制代码

上传不平衡数据后运行：

python etract_unbalance.py -i input.arff -p 1 -n -1

复制代码

其中，-i后接包含所有正例和反例的arff文件，接受arff格式文件。-p后为正例标签；-n后为反例标签。

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)