简介概要

多层级联式少数类聚类高精度数据挖掘算法

来源期刊:控制工程2018年第5期

论文作者:许统德 赵志俊 高俊文

文章页码:829 - 834

关键词:数据挖掘;少数类分类;多层级;K均值聚类;C4.5决策树;

摘    要:数据挖掘领域中类别不平衡数据分类属于热门研究课题。在传统分类算法中,由于存在一定程度的偏向性,使得少数类的分类效果欠佳。基于此,提出一种多层级联式少数类聚类高精度数据挖掘算法。该算法基于聚类进行欠采样,在多数类样本上进行聚类并提取聚类质心,得到数目等同少数类样本的聚类质心,之后和所有少数类样例一起构建新平衡训练集。为杜绝少数类样本数量过少导致训练集过小而影响分类精度,利用SMOTE过采样结合聚类欠采样,在平衡训练集上通过K均值聚类和C4.5决策树算法相级联的分类方式来优化分类决策的边界。实验表明,该算法在处理类别不平衡数据分类问题方面具备一定的优势。

详情信息展示

多层级联式少数类聚类高精度数据挖掘算法

许统德1,赵志俊2,高俊文1

1. 广东农工商职业技术学院教务处2. 广州大学松田学院

摘 要:数据挖掘领域中类别不平衡数据分类属于热门研究课题。在传统分类算法中,由于存在一定程度的偏向性,使得少数类的分类效果欠佳。基于此,提出一种多层级联式少数类聚类高精度数据挖掘算法。该算法基于聚类进行欠采样,在多数类样本上进行聚类并提取聚类质心,得到数目等同少数类样本的聚类质心,之后和所有少数类样例一起构建新平衡训练集。为杜绝少数类样本数量过少导致训练集过小而影响分类精度,利用SMOTE过采样结合聚类欠采样,在平衡训练集上通过K均值聚类和C4.5决策树算法相级联的分类方式来优化分类决策的边界。实验表明,该算法在处理类别不平衡数据分类问题方面具备一定的优势。

关键词:数据挖掘;少数类分类;多层级;K均值聚类;C4.5决策树;

<上一页 1 下一页 >

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号