基于概率分布估计的混合采样算法
来源期刊:控制与决策2014年第5期
论文作者:曹鹏 李博 栗伟 赵大哲
文章页码:815 - 820
关键词:不均衡数据学习;类内不均衡;混合采样;概率分布估计;
摘 要:在类别不均衡的数据中,类间和类内不均衡性问题都是导致分类性能下降的重要因素.为了提高不均衡数据集下分类算法的性能,提出一种基于概率分布估计的混合采样算法.该算法依据数据概率分别对每个子类进行采样以保证类内的均衡性;并扩大少数类的潜在决策域和减少多数类的冗余信息,从而同时从全局和局部两个角度改善数据的平衡性.实验结果表明,该算法提高了传统分类算法在不均衡数据下的分类性能.
曹鹏,李博,栗伟,赵大哲
摘 要:在类别不均衡的数据中,类间和类内不均衡性问题都是导致分类性能下降的重要因素.为了提高不均衡数据集下分类算法的性能,提出一种基于概率分布估计的混合采样算法.该算法依据数据概率分别对每个子类进行采样以保证类内的均衡性;并扩大少数类的潜在决策域和减少多数类的冗余信息,从而同时从全局和局部两个角度改善数据的平衡性.实验结果表明,该算法提高了传统分类算法在不均衡数据下的分类性能.
关键词:不均衡数据学习;类内不均衡;混合采样;概率分布估计;