面向海量地质文档的表格信息快速抽取方法研究
来源期刊:中国矿业2017年第9期
论文作者:李杨 朱月琴 李朝奎 肖克炎 范建福 李秋平
文章页码:98 - 103
关键词:地质文档;表格信息;快速抽取;
摘 要:以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法。为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验。实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间。
李杨1,朱月琴2,3,李朝奎1,肖克炎4,范建福4,李秋平5
1. 湖南科技大学地理空间信息技术国家地方联合工程实验室2. 国土资源部地质信息技术重点实验室3. 中国地质调查局发展研究中心4. 中国地质科学院矿产资源研究所5. 西北大学城市与环境学院
摘 要:以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法。为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验。实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间。
关键词:地质文档;表格信息;快速抽取;