基于信息瓶颈和拉普拉斯SVM的Web文档分类算法

来源期刊:中南大学学报(自然科学版)2011年第z1期

论文作者:王自强 孙霞 钱旭

文章页码:731 - 736

关键词:数据挖掘;文档分类;信息瓶颈;拉普拉斯SVM

Key words:data mining; document classification; information bottleneck; LapSVM

摘    要:为了有效地克服传统文档表示的高维性及利用大量的无标记样本数据来共同提高Web文档分类算法的分类性能,提出了基于信息瓶颈和拉普拉斯SVM的Web文档分类算法。该算法首先利用基于信息瓶颈的词聚类方法来抽取用于文档简洁表示的鉴别性特征,然后,再在降维后的低维特征空间利用拉普拉斯SVM分类器进行分类判决。实验结果表明,该算法具有很好的分类性能。

Abstract: To effectively overcome the high-dimensionality of document representation and improve the performance of Web document classification algorithm with a large amount of unlabeled data, the Web document classification algorithm based on information bottleneck (IB) and Laplacian support vector machine (LapSVM) was proposed. First, the information bottleneck-based word clustering algorithm was used to obtain the discrimination feature for concise document representation, then the LapSVM classifier was applied to classifying documents in the reduced lower dimensional feature space. Experimental results show that the proposed classification algorithm achieves superior classification performance.

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号