模式发现在Web抽取中的应用及设计
来源期刊:控制工程2003年第3期
论文作者:蔡霞 张森 周宇
文章页码:227 - 498
关键词:Web抽取;包装器;半结构化数据;模式发现;
摘 要:WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。
蔡霞,张森,周宇
摘 要:WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。
关键词:Web抽取;包装器;半结构化数据;模式发现;