基于条件生成对抗网络的不平衡学习研究
来源期刊:控制与决策2021年第3期
论文作者:赵海霞 石洪波 武建 陈鑫
文章页码:619 - 628
关键词:不平衡学习;类别重叠;重抽样方法;条件生成对抗网络;
摘 要:对于不平衡数据的分类,不平衡率并不是影响分类效果的唯一因素,类别间的重叠、正类样本的分离以及噪音样本的存在等均会对分类效果造成影响.针对具有类别重叠的不平衡数据集,提出基于CGAN模型的重抽样方法(RECGAN).该方法结合负类样本的欠抽样和正类样本的过抽样,既能够提高重叠区域正类样本的识别度,又可以克服以往均从样本点的局部邻域出发合成样本的缺陷.实验结果表明,无论是从AUC和F1的取值看,还是从数据集上的平均排序看, RECGAN方法均具有明显的优势.
赵海霞1,石洪波2,武建3,4,陈鑫2
1. 山西财经大学统计学院2. 山西财经大学信息学院3. 山西财经大学应用数学学院4. 太原理工大学信息与计算机学院
摘 要:对于不平衡数据的分类,不平衡率并不是影响分类效果的唯一因素,类别间的重叠、正类样本的分离以及噪音样本的存在等均会对分类效果造成影响.针对具有类别重叠的不平衡数据集,提出基于CGAN模型的重抽样方法(RECGAN).该方法结合负类样本的欠抽样和正类样本的过抽样,既能够提高重叠区域正类样本的识别度,又可以克服以往均从样本点的局部邻域出发合成样本的缺陷.实验结果表明,无论是从AUC和F1的取值看,还是从数据集上的平均排序看, RECGAN方法均具有明显的优势.
关键词:不平衡学习;类别重叠;重抽样方法;条件生成对抗网络;