简介概要

基于文本语料的涉恐事件实体属性抽取

来源期刊:工程科学学报2020年第4期

论文作者:曹文斌 武卓峰 杨涛 凡友荣

文章页码:500 - 508

关键词:实体抽取;语义角色分析;三元组;朴素贝叶斯;文本分类;

摘    要:基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支持.首先,基于西北政法大学"反恐怖主义信息网"文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分类算法识别涉恐事件文本,并采用关键词提取算法TF-IDF(Term frequency-inverse document frequency,词频-逆文档频率)构建涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库.然后通过语义角色分析、句法依存分析,提取了主语谓语宾语关系、定语后置动宾关系、人名//地名//机构和介宾关系主谓动补4类涉恐三元组结构.最后,利用正则表达式及带词性的涉恐专有名词分析,在4类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐怖组织6类实体属性.对采集的4221篇文章数据进行实验分析,6类实体属性抽取的测评结果 F1值均超过80%,对网络空间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义.

详情信息展示

基于文本语料的涉恐事件实体属性抽取

曹文斌1,武卓峰2,杨涛1,凡友荣1

1. 公安部第三研究所2. 上海市公安局

摘 要:基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支持.首先,基于西北政法大学"反恐怖主义信息网"文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分类算法识别涉恐事件文本,并采用关键词提取算法TF-IDF(Term frequency-inverse document frequency,词频-逆文档频率)构建涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库.然后通过语义角色分析、句法依存分析,提取了主语谓语宾语关系、定语后置动宾关系、人名//地名//机构和介宾关系主谓动补4类涉恐三元组结构.最后,利用正则表达式及带词性的涉恐专有名词分析,在4类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐怖组织6类实体属性.对采集的4221篇文章数据进行实验分析,6类实体属性抽取的测评结果 F1值均超过80%,对网络空间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义.

关键词:实体抽取;语义角色分析;三元组;朴素贝叶斯;文本分类;

<上一页 1 下一页 >

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号