基于领域知识的个性化智能语义检索系统
梁美玉,杜军平,高田
(北京邮电大学 计算机学院 智能通信软件与多媒体北京市重点实验室,北京,100876)
摘要:设计并实现一个基于领域知识的个性化旅游智能语义检索系统,给出系统的总体框架和具体功能实现。采用领域本体技术实现对旅游领域知识的建模,构建领域知识库,并将查询扩展和语义推理技术应用于基于本体的信息搜索过程中。根据用户的浏览行为和个人偏好,建立用户兴趣模型,可实现个性化的信息搜索。研究结果表明:基于领域本体知识库的语义层面的旅游信息搜索具有比传统搜索引擎更好的语义推理查询能力。
关键词:智能Agent;知识建模;知识库;语义检索;兴趣模型
中图分类号:TP311 文献标志码:A 文章编号:1672-7207(2011)S1-0865-05
Personalized intelligent semantic retrieval system based on domain knowledge
LIANG Mei-yu, DU Jun-ping, GAO Tian
(Beijing Key Lab of Intelligent Telecommunication Software and Multimedia, School of Computer Science,
Beijing University of Posts and Telecommunications, Beijing 100876, China)
Abstract: A personalized tourism intelligent semantic retrieval system based on domain ontology was studied and designed, and the system general framework and implementation of system functions were given. The domain ontology technology was applied to realize the modeling of tourism domain knowledge, the domain knowledge base was established, and the technologies of query expansion and semantic reasoning to the information searching process based on ontology were also applied in the system. Furthermore, User’s interest model was established according to the tourists’ browsing behavior and personal preferences. The results show that the information retrieval on the level of semantic based on domain ontology knowledge base owns better semantic reasoning ability than that of the traditional search engine.
Key words: intelligent Agent; knowledge modeling; knowledge base; semantic retrieval; interest model
近年来,随着Internet数字化旅游信息资源的爆炸式增长,使得游客快速准确地获取所需要的有效信息变得越来越困难。传统的搜索引擎忽略了游客的个人兴趣爱好以及缺乏对语义知识的理解,使得不同的游客输入相同的关键词而得到相同的查询结果[1-2]。因此,迫切需要开发智能化的搜索引擎,支持用户以自然语言的方式表达检索请求,并且具备一定的语义理解和语义扩展推理能力。考虑用户兴趣爱好,建立面向游客的个性化信息服务机制,可提高游客获取有效信息的能力。本文作者设计的个性化旅游智能语义检索系统正是针对当前信息资源获取中更多的是单向、被动的服务方式而提出的一种服务新理念,它是在基于对游客的信息需求行为、习惯和偏好的分析以及结合旅游领域知识的基础上向游客提供其感兴趣信息的服务模式。
1 智能Agent
智能Agent具有高度智能性和自主学习性,可以根据用户定义的准则,主动地通过智能化代理服务器为用户搜集最感兴趣的信息,然后利用代理通信协议把加工过的信息按时推送给用户,并能推测出用户的意图,自主制订、调整和执行工作计划,代替用户进行各种复杂的工作[3]。完成一项复杂的任务往往需要多个智能Agent耦合,通过建立通信协调机制来实现彼此间相互协作,再进行信息处理与问题求解耦合,共同实现信息检索、信息过滤、信息挖掘等功能[4]。
2 领域本体知识库
领域本体是对具体领域中的概念和关系的抽象描述,是相关领域信息资源的组织框架。本体具有良好的概念层次结构和对逻辑推理的支持,能够通过概念之间的关系来表达概念语义的能力,从而实现语义层面上的信息表示和组织[5]。基于本体技术来构建旅游领域知识库,通过逻辑推理可以发掘概念之间隐含的和不明确的信息,发掘领域资源内部的隐含语义关联,实现智能搜索[6]。与传统信息检索技术的区别是它使用了推理机制来进行扩展查询,具有语义推理的功能,使得用户能够比较准确而全面地检索到自己所需要的信息,从而有效地提高领域信息查询的质量和效率。
3 基于领域知识的个性化智能语义检索系统的设计和实现
3.1 系统的架构和功能
本文构建了一种基于Agent技术和领域知识的个性化旅游智能语义检索原型系统,从而帮助游客准确地获取其感兴趣的有效信息。系统包括游客的兴趣学习、信息搜索、信息过滤等功能模块。信息搜索模块能够结合领域本体知识库,尽快地在指定范围内搜索所需信息并对得到的数据进行处理;信息过滤模块可依据游客的兴趣快速提取需处理的网页的关键词进行过滤;兴趣学习模块通过机器学习了解游客兴趣所在,并对各种信息有较强的领悟力和适应能力。系统总体架构如图1所示。
游客Agent:提供友好的人机交互界面,接受游客的查询要求,显示个性化信息查询结果,并提供接受游客反馈评价信息的界面。
兴趣Agent:根据游客输入的查询要求(关键词信息)以及游客的注册信息和游客平时的浏览行为,针对每个游客的特点构建个性化的游客兴趣模型,并存入兴趣知识库中。当游客提出查询请求时,根据游客输入的关键词,查询游客兴趣知识库,从而确定游客的个人兴趣,然后将游客兴趣传递给信息搜索Agent。
领域本体知识库:对领域知识进行分析,利用本体形式化编码来对旅游领域信息资源进行本体化。使用标准化OWL语言来进行语义编码,并利用工具Jena将旅游领域本体存储至关系数据库,构建领域知识库,用于游客在输入查询关键词后进行查询扩展和语义推理,实现在语义层面上的智能检索。
图1 系统总体架构
Fig.1 System general structure
信息搜索Agent:根据兴趣Agent提供的游客兴趣信息,同时结合所构建的旅游领域本体知识库,通过对用户的查询请求进行查询扩展和语义推理后,进行本地或远程的数据搜索,搜索出游客感兴趣的周边旅游信息,并将搜索的结果存入索引数据库中,供信息过滤Agent进一步对结果进行筛选。
信息过滤Agent:将信息搜索Agent搜索出的结果,再次结合游客兴趣知识库,并采用一定的过滤算法进一步筛选出真正满足游客需求的信息,并将筛选结果存入索引数据库中供游客查询。
反馈Agent:收集游客对推送信息的反馈评价,并据此不断更新游客的兴趣知识库。
3.2 系统的实现机制
3.2.1 游客Agent
游客Agent实现人机交互功能。针对游客的特点为游客提供良好的人机交互界面,一方面满足游客对信息的查询需求,并显示游客的个性化的查询结果;另一方面提供相关的信息反馈窗口,记录游客的访问模式和偏好,为系统个性化服务提供依据。
3.2.2 兴趣Agent
通过与游客Agent协作获取游客的访问习惯和偏好,加以分析生成游客兴趣模型。游客兴趣模型可以体现游客的信息检索需求,据此查询出的信息才能真正满足游客的个性化需求。本文采用的是加权关键词表示法。该方法将游客感兴趣的信息以关键词的形式表示,并通过赋予权重表示游客对该关键词表征的信息感兴趣的程度。由游客提供访问过的感兴趣的一组文档,游客兴趣模型就可以用对这一组文档进行统计分析得出的文档向量表示。设D是一个包含m篇文档的文档集合:D={d1, di, …, dm}(i=l, 2, …, m)。文档集合中的任一文档di,可以表示为一个n维向量:di= (di1, …, dij, …, din),(i=1, 2, …, m;j=1, 2, …, n)。其中,dij为文档di的第j个特征词对应的权重,采用基于词频的方法作为计算方法,dij表示第j个关键词在文档di中出现的次数,当第j个关键词不属于文档di时,dij为0。
游客兴趣模型构建过程如图2所示。
页面集合中存储了游客最近访问过的隐含着兴趣爱好的页面。预处理模块对一些无用数据进行清除,只保留游客感兴趣的内容页面,并对这些内容页面进行特征提取。页面分类模块根据游客的个性化模型将各个页面进行分类。兴趣生成模块统计各个兴趣类中的页面特征词信息,生成游客兴趣向量并将游客兴趣模型存入兴趣知识库。更新、优化模块对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整,逐步更新和优化兴趣知识库。
图2 游客兴趣模型构建
Fig.2 Construction of visitor’s interest model
3.2.3 领域本体知识库
本文采取混合自上向下与自下向上的方法,先构建起了核心的概念后,然后逐步进行扩展和细化。构建了旅游本体的实例,为相关概念类创建相应的个体。使用OWL本体描述语言对旅游领域本体进行编码和形式化。选用中文本体构建工具Protégé 2000实现本体的设计和构建。旅游领域本体的概念层次结构图如图3所示。
通过Jena工具来对本体进行持久化存储,将本体文件转换为可存储的关系数据库文件,持久化存储于MySQL数据库中,实现旅游领域概念的语义化过程,完成旅游领域知识库的构建。
3.2.4 信息搜索Agent
信息搜索采取本地和远程相结合的方式,当游客输入的查询关键词得到扩展以后,先在本地索引数据库中查询是否有符合游客需求的信息。如果没有找到满足需求的信息,则启动搜索引擎通过Internet进行远程搜索。为了更好地满足游客的查询要求,信息搜索Agent为游客提供一个能够同时查询多个搜索引擎的集成界面,并集成多个搜索引擎的搜索结果。查询结果存入索引数据库中供过滤Agent进一步进行筛选。信息搜索Agent的工作流程图如图4所示。
3.2.5 信息过滤Agent
将信息搜索Agent的搜索结果结合游客的兴趣模型库,采用过滤算法进行进一步的筛选。在此采用基于关键词向量的信息过滤法,它将表征信息单元的关键词与Agent搜索关键词看作2个向量(V1, V2),并对其进行余弦cos(V1,V2)夹角计算,得出2个向量之间的相似度R,其值越大说明向量越相似。
图3 旅游领域本体的概念层次结构
Fig.3 Concept level structure of tourism domain ontology
图4 信息搜索Agent
Fig.4 Information searching Agent
(1)
当相似性达到一定的值,该信息就被保留下来,存入索引数据库中供游客查询。信息过滤Agent的工作流程图如图5所示。
3.2.6 反馈Agent
由于游客的兴趣和需求是不断变化的,因此信息服务必须具有适应能力,淘汰旧的模式,补充新的模式,不断更新游客的兴趣模型,这是通过反馈Agent实现的。反馈的方式有2种。一种是显性反馈,游客按照自己的兴趣对文档进行评价,给予评分等级,明确表明个人喜好,系统则根据游客反馈的文档内容获取游客的兴趣;另一种是隐性反馈,这种方式无须游客明确地指明自己的兴趣,系统通过游客的访问行为、内容、过程和其他特征推导出游客的兴趣,通过观察游客与WEB浏览器之间的交互动作来获取隐式的反馈信息,并运用这些反馈信息来不断更新游客兴趣模型。显性反馈需要对游客的个人反馈信息进行量化,把游客对推送信息的评价分为如下5个等级:很满意(+2)、满意(+1)、一般(0)、不满意(-1)、很不满意(-2)。隐性反馈由游客的行为决定反馈更新,不同行为具有不同的意义以及不同的等级,如表1所示。
图5 信息过滤Agent
Fig.5 Information filtering Agent
设a(0~1之间的实数)为学习速度,用于控制调整的步调。则反馈学习中游客兴趣调整公式如下:
P=P+afD (2)
式中:P为游客兴趣的矢量表示;D为游客评价文档的矢量表示;f为游客评价或游客行为的等级值。
表1 游客行为的意义
Table 1 Meaning of user behavior
4 实验结果和分析
本文实现了基于旅游领域本体知识库进行信息检索过程中的概念扩展和语义推理过程,实现了基于语义进行检索的功能。以游客要查询颐和园景点周边的宾馆住宿情况为例,若使用传统搜索引擎,基于游客输入的信息单纯进行关键词匹配,难以得到游客真正想要的查询结果。实验中基于本文所构建的旅游领域本体知识库,通过对游客输入的关键词进行概念扩展,然后将扩展后的概念集合与本体库中的实例进行匹配,结合领域知识库中所定义的相关规则进行语义推理。当游客在系统中查询颐和园周边的宾馆住宿情况时,系统采用如下规则来实现推理:
Rule: (?x hotelin ? y)(? y isLocated In ? z) ->
(? x hotelLocatedIn ? z) (3)
通过把以上规则导入推理机进行查询,经过系统推理得出如图6所示的查询结果。通过实验结果分析可得:本系统具有比传统搜索引擎更高的语义推理查询能力。
图6 颐和园景区周边宾馆住宿查询结果
Fig.6 Hotel accommodation query results around area of Summer Palace
5 结论
(1) 本文融合了智能Agent、领域本体知识建模、人工智能以及数据挖掘等多方面的技术,构建了旅游领域本体知识库,实现了语义知识层面上的智能搜索,同时为每个游客量身定做个性化的兴趣模型,在一定程度上满足了游客的个性化搜索需求。
(2) 下一步的工作重点是研究如何通过数据挖掘、知识发现等技术实现旅游领域本体的自动构建和扩展。
参考文献:
[1] 王肃, 杜军平. 主动信息服务系统的设计与实现[J]. 智能系统学报, 2007, 2(6): 72-75.
WANG Su, DU Jun-ping. Design and implementation of an active information service system[J]. CAAI Transactions on Intelligent Systems, 2007, 2(6): 72-75.
[2] 郭艳燕, 杨军. 基于Muti-Agent的电子商务个性化推荐系统模型的设计与研究[J]. 山东师范大学学报: 自然科学版, 2008, 23(4): 109-112.
GUO Yan-yan, YANG Jun. Design and research on the model of multi-agent-based personalized recommendation system in e-commerce[J]. Journal of Shandong Normal University: Natural Science, 2008, 23(4): 109-112.
[3] Sreenath R M, Singh M P. Agent-based service selection[J]. Web Semantics: Science Services and Agents on the World Wide Web, 2004, 1(3): 261-279.
[4] LIU Yan-bing, ZHU Xia-dan. Research of the system movement break down supervision real time based on multi-agent[J]. Tiny Calculator Information, 2006, 28: 224-225.
[5] 苏亚萍. 基于本体的领域知识建模研究[D]. 长春: 吉林大学, 2007: 1-90.
SU Ya-ping. Research of the domain knowledge modeling based on ontology[D]. Changchun: Jilin University, 2007: 1-90.
[6] 梅翔. 语义检索中若干关键问题的研究[D]. 北京: 北京邮电大学, 2007: 1-122.
MEI Xiang. Research on semantic search and related technology[D]. Beijing: Beijing University of Posts and Telecommunications, 2007: 1-122.
(编辑 何学锋)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:国家自然科学基金资助项目(91024001,61070142);北京市自然科学基金资助项目(4111002)
通信作者:杜军平(1963-),女,河北保定人,教授,从事智能信息处理研究;电话:13501233431;E-mail: junpingdu@126.com