基于最大平衡度的自适应随机抽样算法
来源期刊:东北大学学报(自然科学版)2018年第6期
论文作者:董立岩 王越群 李永丽 朱琪
文章页码:792 - 796
关键词:非平衡数据集;最大平衡度;随机抽样;随机森林;数据预处理;
摘 要:针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.
董立岩1,王越群1,李永丽2,朱琪1
1. 吉林大学计算机科学与技术学院2. 东北师范大学计算机科学与信息技术学院
摘 要:针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.
关键词:非平衡数据集;最大平衡度;随机抽样;随机森林;数据预处理;