简介概要

基于公共词集对长篇小说相似度的研究

来源期刊：软件工程2018年第10期

论文作者：郭涛霸元婕李绍昂

文章页码：11 - 23

关键词：公共词集;小说相似度;上下文约束;

摘要：传统的文本相似度计算基于向量空间模型(VSM),文本映射成独立的、互不关联的词构成的向量。由于长篇小说具有比普通文本更为复杂的构成元素,以及更加紧密的上下文联系,传统算法忽略词项的上下文联系,并且产生高维向量,因此算法的效率和精度不理想。为此,本文基于公共词集对长篇小说进行相似度计算,并对公共词集进行上下文约束检查,得到关联比较紧密的词集,作为小说的主要特征。实验结果表明,对于某些小说类型,效果有很大的提升。

详情信息展示

基于公共词集对长篇小说相似度的研究

郭涛，霸元婕，李绍昂

吉林大学计算机科学与技术系

摘要：传统的文本相似度计算基于向量空间模型(VSM),文本映射成独立的、互不关联的词构成的向量。由于长篇小说具有比普通文本更为复杂的构成元素,以及更加紧密的上下文联系,传统算法忽略词项的上下文联系,并且产生高维向量,因此算法的效率和精度不理想。为此,本文基于公共词集对长篇小说进行相似度计算,并对公共词集进行上下文约束检查,得到关联比较紧密的词集,作为小说的主要特征。实验结果表明,对于某些小说类型,效果有很大的提升。

关键词：公共词集;小说相似度;上下文约束;

<上一页 1 下一页 >

相关论文

几种基于统计的词聚类方法比较

基于词聚类的依存句法分析

一种XML文档结构相似度计算方法

基于未知度的Vague集相似度量新方法

基于BiLSTM的公共安全事件触发词识别

基于Vague集相似度量的矿井通风机故障诊断方法的研究

广义相似关系下的不完备信息系统粗糙集模型

基于SBM区间模型的决策单元相似度

变精度集对势粗糙集模型

利用文本相似度计算的装配工作指令评估

相关知识点

公共供电点

相似的基本概念

一些高频科技用词或概念的翻译

汉语词英译时的准确化

(规范性附录)本规程用词说明

相似元素的深度分离

对流传热相似准数

相似材料模型实验

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号