基于Hadoop的Web应用日志挖掘
来源期刊:北方工业大学学报2017年第5期
论文作者:吴洁明 王维
文章页码:94 - 210
关键词:分布式计算;Hadoop;Yarn;日志挖掘;
摘 要:互联网上的大型站点每天都会产生大量的Web应用日志,这些日志中通常蕴藏着丰富且宝贵的信息,单节点的数据挖掘系统已无法满足挖掘海量Web日志的要求.针对该问题,研究利用云计算技术在存储和分析数据的优势,采用分布式数据挖掘方法,验证了以分布式模式挖掘日志较单机的集中模式的效率优势,提高了海量日志挖掘过程中存在的时空效率.
吴洁明,王维
北方工业大学计算机学院
摘 要:互联网上的大型站点每天都会产生大量的Web应用日志,这些日志中通常蕴藏着丰富且宝贵的信息,单节点的数据挖掘系统已无法满足挖掘海量Web日志的要求.针对该问题,研究利用云计算技术在存储和分析数据的优势,采用分布式数据挖掘方法,验证了以分布式模式挖掘日志较单机的集中模式的效率优势,提高了海量日志挖掘过程中存在的时空效率.
关键词:分布式计算;Hadoop;Yarn;日志挖掘;