一种改进的相似重复记录检测方法
来源期刊:控制与决策2006年第7期
论文作者:朱恒民 王宁生
文章页码:805 - 1621
关键词:相似重复记录;优先队列;聚类;数据清洗;数据预处理;
摘 要:针对当前相似重复记录检测方法中存在的问题,提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法,尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.
朱恒民,王宁生
摘 要:针对当前相似重复记录检测方法中存在的问题,提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法,尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.
关键词:相似重复记录;优先队列;聚类;数据清洗;数据预处理;