基于强类别特征的文本相似度计算及其性能评估
来源期刊:软件工程2020年第10期
论文作者:刘辉
文章页码:5 - 11
关键词:强类别特征算法;机器学习;文本相似度;语义识别;性能评估;
摘 要:本文基于强类别特征识别算法,研究一种文本语义相似度的计算算法并对其性能进行评估。为实现该功能并形成一种通用算法,本文设计了一种基于语义识别码的语义函数库作为比较对象,使用两次模糊神经元深度卷积机器学习算法模块,并在两次机器学习之间使用一次基于傅立叶变换的频域特征提取的刚性算法,最终在该算法模块前后使用外置的数据模糊算法和解模糊算法,实现了一个较复杂的机器学习通用算法。而该算法也是本文的一次技术创新。通过基于志愿者主观评价的性能评估,发现该系统重点实现了汉语言的文本语义相似度评价,且实现了81.78%的人工判断准确率对比结果,且只有5.52%的志愿者认为系统判断结果与人工判断结果完全不一致。
刘辉
上海理工大学信息化办公室
摘 要:本文基于强类别特征识别算法,研究一种文本语义相似度的计算算法并对其性能进行评估。为实现该功能并形成一种通用算法,本文设计了一种基于语义识别码的语义函数库作为比较对象,使用两次模糊神经元深度卷积机器学习算法模块,并在两次机器学习之间使用一次基于傅立叶变换的频域特征提取的刚性算法,最终在该算法模块前后使用外置的数据模糊算法和解模糊算法,实现了一个较复杂的机器学习通用算法。而该算法也是本文的一次技术创新。通过基于志愿者主观评价的性能评估,发现该系统重点实现了汉语言的文本语义相似度评价,且实现了81.78%的人工判断准确率对比结果,且只有5.52%的志愿者认为系统判断结果与人工判断结果完全不一致。
关键词:强类别特征算法;机器学习;文本相似度;语义识别;性能评估;