一种XML文档结构相似度计算方法
来源期刊:控制与决策2010年第4期
论文作者:朴勇 田伟 王秀坤
文章页码:497 - 501
关键词:结构相似度;位置权重;最长公共子序列;
摘 要:对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.
朴勇1,2,田伟1,王秀坤2
1. 大连理工大学软件学院2. 大连理工大学电信学院
摘 要:对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.
关键词:结构相似度;位置权重;最长公共子序列;