复杂业务领域数据清洗规则冲突检测方法
来源期刊:昆明理工大学学报(自然科学版)2020年第2期
论文作者:何俊 张德海 张云飞 杨雪
文章页码:50 - 57
关键词:数据清洗;分级规则库;冲突检测;扶贫领域;
摘 要:针对复杂业务领域中采用规则库进行数据清洗的方法存在逻辑冲突频发和出错率高的问题,提出一种基于分级规则库的数据清洗方法(Hierarchical Rule Data Cleaning Method, HRDCM).设计分级规则库数据清洗框架,自顶向下构建规则库的逻辑关系,采用逐级向下约束的方式建立规则冲突检测机制,并给出相应的算法.以扶贫领域为例构建三级规则库,采用某贫困县的扶贫数据开展实验,结果表明HRDCM方法的规则逻辑冲突减少后使清洗效率提升,清洗结果出错率降低,验证了方法的科学性和合理性.
何俊1,张德海2,张云飞1,杨雪1
1. 昆明学院信息工程学院2. 云南大学软件学院
摘 要:针对复杂业务领域中采用规则库进行数据清洗的方法存在逻辑冲突频发和出错率高的问题,提出一种基于分级规则库的数据清洗方法(Hierarchical Rule Data Cleaning Method, HRDCM).设计分级规则库数据清洗框架,自顶向下构建规则库的逻辑关系,采用逐级向下约束的方式建立规则冲突检测机制,并给出相应的算法.以扶贫领域为例构建三级规则库,采用某贫困县的扶贫数据开展实验,结果表明HRDCM方法的规则逻辑冲突减少后使清洗效率提升,清洗结果出错率降低,验证了方法的科学性和合理性.
关键词:数据清洗;分级规则库;冲突检测;扶贫领域;