大数据环境下基于前缀树的频繁项集挖掘
来源期刊:控制工程2019年第11期
论文作者:黄彩娟 刘卓华 所辉 杨滨
文章页码:2136 - 2140
关键词:频繁项集挖掘;MapReduce;前缀序列树;模糊支持度;大数据;
摘 要:针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。
黄彩娟1,刘卓华1,所辉1,杨滨2
1. 广东机电职业技术学院计算机与设计学院2. 江南大学设计学院
摘 要:针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。
关键词:频繁项集挖掘;MapReduce;前缀序列树;模糊支持度;大数据;