一种图文组合相似度算法的设计与优化
来源期刊:软件工程2020年第8期
论文作者:鲜翠琼 秦学 朱道恒 操淑敏
文章页码:9 - 16
关键词:余弦相似度算法;Jaccard相似系数;感知哈希算法;文本相似度;
摘 要:包含文字和图片的文档作为信息的一种载体,能够极大地丰富信息的表现形式。针对传统计算图文相似度的算法效率不高的问题,提出一种图文组合相似度算法。将Jaccard相似系数引入余弦相似度,通过加权计算两文本的相似度,然后用感知哈希算法计算文档中图片相似度并找出最大值,再计算单个文档中所有图片相似度均值,与文本相似度加权求得文档的图文相似度。最后通过一个文档相似度查重系统验证了该算法能准确高效地完成文档之间相似度的量化,且优化后的相似度算法能够极大提高该系统的运行效率。
鲜翠琼,秦学,朱道恒,操淑敏
贵州大学大数据与信息工程学院
摘 要:包含文字和图片的文档作为信息的一种载体,能够极大地丰富信息的表现形式。针对传统计算图文相似度的算法效率不高的问题,提出一种图文组合相似度算法。将Jaccard相似系数引入余弦相似度,通过加权计算两文本的相似度,然后用感知哈希算法计算文档中图片相似度并找出最大值,再计算单个文档中所有图片相似度均值,与文本相似度加权求得文档的图文相似度。最后通过一个文档相似度查重系统验证了该算法能准确高效地完成文档之间相似度的量化,且优化后的相似度算法能够极大提高该系统的运行效率。
关键词:余弦相似度算法;Jaccard相似系数;感知哈希算法;文本相似度;