基于HADOOP集群的数据采集和清洗
来源期刊:软件工程2016年第11期
论文作者:刘晨 焦合军
文章页码:20 - 24
关键词:海量数据;Hadoop;hive;数据采集;数据清洗;
摘 要:互联网的到来,使计算机行业蓬勃发展,各公司的业务数据也都到达P级别的数据量。本文结合Hadoop框架的中Hive和Hbase,对各个模块进行了详细的描述,重点分析了集群搭建步骤,及如何对集群的数据进行采集和清洗,并通过建立表来存储分析结果。
刘晨1,焦合军2
1. 71320部队2. 河南工程学院计算机学院
摘 要:互联网的到来,使计算机行业蓬勃发展,各公司的业务数据也都到达P级别的数据量。本文结合Hadoop框架的中Hive和Hbase,对各个模块进行了详细的描述,重点分析了集群搭建步骤,及如何对集群的数据进行采集和清洗,并通过建立表来存储分析结果。
关键词:海量数据;Hadoop;hive;数据采集;数据清洗;