基于Squeezer算法的文本数据流聚类
来源期刊:控制与决策2012年第4期
论文作者:尤薇佳 刘鲁 刘丹 李明
文章页码:542 - 546
关键词:文本数据流;Squeezer算法;投影聚类;
摘 要:为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法.
尤薇佳1,刘鲁1,刘丹1,李明2
1. 北京航空航天大学经济管理学院2. 中国石油大学工商管理学院
摘 要:为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法.
关键词:文本数据流;Squeezer算法;投影聚类;