一种面向医学短文本的自适应聚类方法
来源期刊:东北大学学报(自然科学版)2015年第1期
论文作者:栗伟 许洪涛 赵大哲 刘积仁
文章页码:19 - 23
关键词:聚类分析;相似性度量;频繁序列模式;电子病历;相似度分布;
摘 要:针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.
栗伟1,许洪涛2,赵大哲1,3,刘积仁3
1. 东北大学医学影像计算教育部重点实验室2. 郑州市人力资源和社会保障数据管理中心3. 东软集团股份有限公司
摘 要:针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.
关键词:聚类分析;相似性度量;频繁序列模式;电子病历;相似度分布;