基于NLP技术和相似度计算的智能搜索引擎研究
来源期刊:昆明理工大学学报(自然科学版)2010年第4期
论文作者:梁晓诚 岳晓光 麦范金 赵子强 路英 王挺
文章页码:76 - 167
关键词:自然语言处理;中文分词;相似度;DotLucene;智能搜索引擎;
摘 要:针对传统的搜索引擎对于自然语言理解方面存在的问题,文章研究了一种新的基于自然语言处理技术和相似度计算的智能搜索引擎的模型.其核心技术是基于自然语言处理的中文分词技术、语义相似度和对立度等理论,将这些概念理论结合起来,从用户习惯的思考角度,结合DotLucene开源全文搜索引擎建立一个智能的搜索引擎.研究表明,该模型在对已经收录的文档有着86.1%的查准率.该智能搜索引擎较好的对查询语句的实现了理解,能够对用户的提问做出正确的回答.
梁晓诚1,岳晓光1,麦范金1,赵子强2,路英3,王挺4,5
1. 桂林理工大学信息科学与工程学院2. 太原科技大学机械电子工程学院3. 莫纳什大学管理学院4. 利物浦大学计算机科学系5. 西交利物浦大学计算机科学与软件工程系
摘 要:针对传统的搜索引擎对于自然语言理解方面存在的问题,文章研究了一种新的基于自然语言处理技术和相似度计算的智能搜索引擎的模型.其核心技术是基于自然语言处理的中文分词技术、语义相似度和对立度等理论,将这些概念理论结合起来,从用户习惯的思考角度,结合DotLucene开源全文搜索引擎建立一个智能的搜索引擎.研究表明,该模型在对已经收录的文档有着86.1%的查准率.该智能搜索引擎较好的对查询语句的实现了理解,能够对用户的提问做出正确的回答.
关键词:自然语言处理;中文分词;相似度;DotLucene;智能搜索引擎;