基于领域知识本体的突发事件演化
高田,杜军平,王肃
(北京邮电大学 计算机学院 智能通信软件与多媒体北京市重点实验室,北京,100876)
摘要:主要从2个方面研究突发事件演化规律,即突发事件的生命周期阶段和突发事件内部各子事件之间的时序关系。建立了用于表现突发事件演化规律的本体知识模型,为领域信息描述提供一系列明确定义的形式化概念描述规范。采用领域知识建立了一个用于特征抽取的事件框架模型,并将互联网中突发事件相关信息以话题为单位进行聚类。还提出了一种话题热度评估算法,该算法综合考虑了话题的主题相关度和报道频率。实验结果表明:提出的方法用于社会安全类突发事件时,能够较准确地估计具体时间片内话题热度,并可发现各子事件间形成一种直链发散式的事件链结构。
关键词:领域知识;本体;突发事件演化;话题热度
中图分类号:TP311 文献标志码:A 文章编号:1672-7207(2011)S1-0847-06
Emergency evolution based on domain knowledge ontology
GAO Tian, DU Jun-ping, WANG Su
(Beijing Key Lab of Intelligent Telecommunication Software and Multimedia, School of Computer Science,
Beijing University of Posts and Telecommunications, Beijing 100876, China)
Abstract: Two major aspects of evolution law in emergencies were studied. One is the lifecycle phase; the other is the sequential relationship between sub events. The ontological knowledge model of incidents was established for description of the evolution performance, providing a serious of clearly defined specifications for domain information in the form of formal concept. Then, a framework model for the feature extraction of events was established using domain knowledge, and relevant information of unexpected events on the internet was clustered in topics. An evaluation algorithm was presented for the heat of topics, which was based on an overall analysis of theme relevance and coverage frequency. Experiments show that this method is suitable for social security incidents, which can estimate the heat of topics within the specific time slice accurately, and the structure of event chains in a straight-chain and divergent way is found among sub events.
Key words: domain knowledge; ontology; emergency evolution; heat of topics
突发事件的发生严重威胁着人类的生命财产安全,导致突发事件发生的因素既包含自然因素,也包含人为因素。近年来,随着人类社会各领域的耦合与关联越来越复杂,加上突发事件本身的突发性和多元性特点,导致很难有效地预测和防备突发事件,灾难发生时往往会引起难以预料的严重后果。在这种情况下,对突发事件的科学研究引起了各国学者的广泛关注[1]。
目前,国内外对于突发事件的研究主要集中于突发事件的应急管理和突发事件本身的客观规律2个方面。其中,突发事件应急管理方面的研究主要包括应急知识模型建立、应急预案制定、应急决策与协调和应急指挥调度等方面;而对突发事件本身客观规律的研究,主要包括突发事件的发生机理、发展机理和演化机理等。对突发事件本身客观规律的研究至关重要,它贯穿了突发事件的其他各种相关研究[2]。深入研究突发事件的产生机理和演化规律,能提高预测预警的效率,改善应急管理的知识模型,并提高应急预案的针对性和有效性[3]。
突发事件的共性在于其发生都受到一定外部环境因素的影响,事件爆发后会迅速发展蔓延,并产生一系列的次生事件和衍生事件,直至事件结束。因此,突发事件内在规律的研究主要集中于其发生机理、发展机理、演化机理等方面[4]。发生机理主要研究导致突发事件发生的原因;发展机理主要研究时间空间上的扩展和烈度上的增强;而演化机理主要研究突发事件发生时,突发事件及其衍生事件之间的转变、迁移、合并、消亡等方面的规律,演化的主要机理可以分为蔓延机理、转换机理、衍生机理和耦合机理4种形 式[5-6]。
目前,国内外的很多学者使用了很多方法对突发事件的演化机理进行研究,例如基于复杂网络理论的传播模型、基于概率论的状态转移模型、基于不确定性理论的演化模型、基于系统动力学的演化机理 等[7-8]。由于突发事件总是会诱发一系列的次生、衍生突发事件,事件间的耦合机理和衍生机理也成为目前突发事件演化机理研究的重要方向。此外,随着互联网在突发事件信息传播中占有越来越重要的作用,突发事件发生后互联网上相关的信息在短期内会大量发布并快速传播。很多研究者通过将互联网中突发事件相关信息抽象为话题的形式,然后分析各时间点各话题的重要度和关注度,获得话题内容的发展趋势和话题的迁移规律,从而研究突发事件本身的演化机制。
1 数学模型
突发事件的演化机理主要研究突发事件生命周期中事件发生、发展和消亡的规律,以及突发事件及其次生、衍生事件之间蔓延、转换、衍生和耦合的机理。为了能更好地描述上述突发事件的演化机理的知识模型,本文建立了一种基于事件的本体模型,用于描述事件之间关系和事件进化规律,如图1所示。该本体模型将突发事件看作一个开放式的输入输出系统,以事件为粒度级别,描述突发事件的演进过程,主要包括反映事件不同方面内容的属性、事件生命周期的阶段以及反映事件演化关系的概念。针对不同的突发事件类型,建立本体知识模型有利于互联网信息的特征抽取,从而根据信息的演化规律,研究突发事件本身的演化机理。
本体概念模型中,将突发事件E定义为一个五元组的形式E={I, O, S, R, P}。式中:I为突发事件输入集,主要包括导致突发事件发生的致灾因子和在事件发生过程中的各种救灾因子;O为突发事件的输出集,主要指突发事件导致的生命财产损失的评估结果;S是事件侧面集,主要描述突发事件及次生、衍生事件其本身的事件时间、地点、类型、等级、范围等属性;R是事件关系集,本文定义了4种事件之间的关系用来描述事件的演化机理,分别是蔓延、转换、衍生和耦合,如图1中的R1, R2, …, Rn等;P为突发事件所处的生命周期阶段集合,包括潜伏期、爆发期、恢复期和消失期。

图1 突发事件演化模型
Fig.1 Emergency event evolution model
突发事件互联网信息的发展和演化规律,能在很大程度上反映突发事件自身的内在规律。而在各种互联网信息中,新闻报道是最能体现时效性和准确性的信息。本文将突发事件演化机理的研究划分为2个范畴:突发事件本身的演化和互联网突发事件话题的演化。本文的研究就是通过突发事件相关的互联网新闻报道,对报道中的热点话题进行跟踪和评估,从而研究突发事件生命周期内的演化机理。本文把一个突发事件专题中的新闻报道按照事件线索分为不同的话题,话题粒度的分类根据突发事件的事件级别。即话题对应着现实突发事件的某一个具体事件,而报道则对应着事件中某一个场景,并随时间轴的推移不断变化。
针对上述结构建立定量的数学模型,给定一个突发事件专题内的一系列新闻报道集合N={n1, n2, …, nm},这些报道可以按照其内容划分为n个话题E={e1, e2, …, en},将e1作为突发事件的原生事件和主题,其余元素作为次生、衍生事件。为了反映事件按时间轴推移的演化过程,将时间划分为合适长度的时间片T={t1, t2, …, tk}。ei(tj)表示时间片tj中话题ei的各种属性。
2 话题热度评估
要进行新闻报道的话题热度评估,首先要进行话题识别,即将讨论同一个话题的新闻报道分到一个类别中。由于新闻报道是按时序不断更新的,新话题的产生是未知,因此话题识别是一个无监督的聚类过程。本文的本体模型给出了突发事件的事件框架,基于这个事件框架模型进行特征抽取,能有效降低向量空间的维度,并获得重要的特征项,然后,采用单遍增量聚类算法把报道按照时间序列聚类到不同的话题,最后对每个话题进行热度评估。互联网新闻报道的话题聚类和热度评估的流程如图2所示。
对于一系列的突发事件新闻报道,首先按照报道发布的时间划分为时间片。在一个具体时间片内使用一种事件框架模型抽取文档特征,该事件框架模型建立在突发事件演化本体之上,主要包括时间、地点、实体(包括人、物、机构等)和动作4个属性。然后,使用VSM模型将其转换为向量,得到报道集的特征向量矩阵。
向量空间模型中的权值采用一种随时间变化的自适应的TF-IDF公式来确定,
(1)
式中:
表示时间片ti中报道nj的特征项λk的权值;
表示报道nj中特征项λk出现的词频;
表示报道nj中词频最高的特征项对应的词频;N(ti)表
示时间片ti产生的报道总数;
表示时间片ti中
包含特征项λk的报道数目。
然后,按照时间片的顺序,对报道集进行单遍增量聚类。单遍增量聚类算法的思想是按照时间顺序将报道划分到与其最相似的报道簇中,并更新该话题簇的特征向量。同时,为了控制话题聚类的粒度,从而控制事件分类的精细度,需要设置一定的阈值。若报道与所有聚类的相似度都低于这个阈值,则将它作为一个新的话题,建立一个新的话题簇。
时间片内的话题热度主要由2方面决定:一方面是该话题与主题的相关度,选取话题e1作为主题相似度的计算标准;另一方面是当前时间片内话题的报道频率。综合以上2个方面,可以得到热度评估函数:
(2)
从而,得到突发事件的总热度:
(3)
本文将话题e1作为突发事件的原生事件,以当前时间片内所有话题热度的总和标识整个突发事件的状态和生命周期阶段。其中:
表示时间片tj中话题ei的热度;
表示话题ei在时间片tj中新增加的报道数目;D(tj)表示时间片tj内新产生
报道的总数,
表示时间片内话题的报道
频率。
3 仿真实验
本文使用的语料是新浪网的“香港游客在菲律宾被劫持”突发事件专题,专题的首篇报道开始于2010年8月23日11时23分,该事件是一个典型的公共安全事件。实验中采集了该专题中截止到2010年8月31日23时23分的573篇新闻报道。按照以12 h为单位统计新闻报道的数目,并使用周期为2的移动平均法计算了报道数量的发展趋势,得到如图3所示的事件热度演化趋势图。

图2 话题聚类与热度评估
Fig.2 Topic clustering and heat assessment

图3 事件热度演化趋势
Fig.3 Trendency of event heat evolution
由于突发事件发生初期,新闻报道密度非常大。话题聚类时粒度的选择是个关键问题,这取决于聚类时选择的距离阈值,得到的话题应能够对应于突发事件中一个具体的事件。同时,时间片间隔对演化分析的准确性也会产生影响。为了能更好地模拟突发事件中的子事件之间的演化关系,实验中将时间片T={t1, t2,…, tk}设置为4 h,报道的集合表示N={n1, n2, …, n573}。使用本文的算法将“香港游客在菲律宾被劫持”事件中的新闻报道聚类为不同的话题,话题的集合表示为E={e1, e2, …, en}。实验对时间片t1, t2, t3中所有的报道进行了文本特征抽取,并根据特征权值进行了聚类算法,得到了11个包含报道数较多的话题,表示为E={e1, e2, …, e11}。表1中仅给出了时间片t1中所产生的5个主要话题的基本信息。
根据式(3)计算每个话题的热度,并对话题较高的话题进行演化分析。突发事件的每个话题对应的报道数和主题相关度不同,各话题之间的关系主要包括蔓延、转换、衍生和耦合等。本文分析了时间片t1, t2和t3内几个主要话题之间的上述演化关系,并将其关系表示成事件演化图的形式,如图4所示。
由图4可以得到,“香港游客在菲律宾被劫持”突发事件的各话题之间,存在着复杂的演化关系,但是,会有一条主话题链,该话题链反映了突发事件本身的进展,为突发事件构成了一个主要事件链结构。而且在这个主要事件链中,话题的演化方式基本都是转换关系。同时,在突发事件的原生事件发生后,事件会迅速蔓延,各种实体会加入事件的处理过程,因而事件的处理又会产生一系列的衍生事件。从网络拓扑的角度来说,该突发事件的演化呈现一种直链发散式的网络结构,因果关系较为单一,事件的转换取决于上一事件的结果。
表1 时间片t1中的话题列表
Table 1 Topic list in time slice t1


图4 突发事件话题演化
Fig.4 Emergency event evolution
4 结论
突发事件互联网信息的发展和演化情况,在很大程度上反应了突发事件自身的内在规律。本文采用的本体知识模型提供了一个用于突发事件演化信息描述的统一框架和规范模型,能有效减少概念、知识和术语上的歧义,从而为旅游突发事件领域内的互联网信息分析和挖掘提供一种语义基础。基于本体知识建立的事件框架模型,能有效提高特征抽取的效率。同时,本文给出的时间片内话题热度评估方法,考虑了主题相关度和话题报道频率2个方面,能够更加准确地得到突发事件的热度。实验表明,社会安全类突发事件的子事件之间一般会形成一个直链发散式的结构,而主要事件之间通常是以事件转换的方式进行演化的。
参考文献:
[1] Wei C, Chang Y. Discovering event evolution patterns from document sequences[J]. IEEE Trans Syst, Man, Cybern A, Syst, Humans, 2007, 37(2): 273-283.
[2] Luechingera S, Raschky P A. Valuing flood disasters using the life satisfaction approach[J]. Journal of Public Economics, 2009, 93(3/4): 620-633.
[3] 陈强, 徐晓林. 网络群体性事件演化要素研究[J]. 情报杂志, 2010, 29(11): 15-19.
CHEN Qiang, XU Xiao-lin. A study on the evolution elements of internet mass even[J]. Journal of Intelligence, 2010, 29(11): 15-19.
[4] 陈安. 应急管理的机理体系[J]. 安全, 2007, 25(06): 10-12.
CHEN An. Mechanism system on emergency management[J]. Safety, 2007, 25(06): 10-12.
[5] Kumpula J M, Onnela J P, Saramaki J, et al. Emergence of communities in weighted networks[J]. Physical Review Letters, 2007, 99(22): .
[6] Apel H, Thieken A H, Merz B, et al. A probabilistic modelling system assessing flood risks[J]. Natural Hazards, 2006, 38(1/2): 79-100.
[7] Martin J E, Rivas T J, Matias M, et al. A Bayesian network analysis of workplace accidents caused by falls from a height[J]. Safety Science, 2009, 47(2): 206-214.
[8] 倪顺江, 翁文国, 范维澄. 具有局部结构的增长无标度网络中传染病传播机制研究[J]. 物理学报, 2009, 58(6): 3707-3713.
NI Shun-jiang, WENG Wen-guo, FAN Wen-cheng. Spread dynamics of infectious disease in growing scale-free networks[J]. Acta Physica Sinica, 2009, 58(6): 3707-3713.
(编辑 袁赛前)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:国家自然科学基金资助项目(91024001,61070142);北京市自然科学基金资助项目(4111002)
通信作者:杜军平(1963-),女,河北保定人,教授,从事智能信息处理研究;电话:13501233431;E-mail: junpingdu@126.com