HtmlParser提取网页信息的设计与实现
来源期刊:江西理工大学学报2007年第6期
论文作者:黄治平 黄颖
关键词:HtmlParser; 信息提取; 网页解析;
摘 要:互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.
黄治平1,黄颖2
(1.赣南师范学院,江西,赣州,341000;
2.江西理工大学信息工程学院,江西,赣州,341000)
摘要:互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.
关键词:HtmlParser; 信息提取; 网页解析;
【全文内容正在添加中】