Dirichlet过程混合模型的聚类算法
来源期刊:中国矿业大学学报2012年第1期
论文作者:张林 刘辉
文章页码:159 - 163
关键词:聚类;Dirichlet过程;无限混合模型;马尔科夫-蒙特卡罗;
摘 要:有限混合模型进行高维数据聚类分析时需预先估计聚类个数,因而聚类的准确性和泛化性受到影响.通过建立Dirichlet过程无限混合模型对高维数据开展聚类分析,采用Dirichlet过程的Urn模型分析出模型中各参数的后验分布,利用Gibbs采样MCMC方法估计出模型中各参数及数据中潜在的聚类数.在五维的仿真数据集和IRIS测试数据集上的聚类结果表明:经过200次Gibbs采样MCMC过程,该算法能够正确地估计出数据中潜在的聚类数.单次Gibbs采样MCMC过程的平均占用时间分别为0.185 0s和0.145 5s,其时间复杂度和数据的样本个数N有关,为O(N).
张林,刘辉
中国矿业大学信息与电气工程学院
摘 要:有限混合模型进行高维数据聚类分析时需预先估计聚类个数,因而聚类的准确性和泛化性受到影响.通过建立Dirichlet过程无限混合模型对高维数据开展聚类分析,采用Dirichlet过程的Urn模型分析出模型中各参数的后验分布,利用Gibbs采样MCMC方法估计出模型中各参数及数据中潜在的聚类数.在五维的仿真数据集和IRIS测试数据集上的聚类结果表明:经过200次Gibbs采样MCMC过程,该算法能够正确地估计出数据中潜在的聚类数.单次Gibbs采样MCMC过程的平均占用时间分别为0.185 0s和0.145 5s,其时间复杂度和数据的样本个数N有关,为O(N).
关键词:聚类;Dirichlet过程;无限混合模型;马尔科夫-蒙特卡罗;