交互式数据探索框架的特征自适应技术
来源期刊:东北大学学报(自然科学版)2018年第12期
论文作者:王蒙湘 李芳芳 于戈
文章页码:1685 - 1690
关键词:交互式数据探索;主题提取;特征选择;样本发现;机器学习;
摘 要:交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性.
王蒙湘,李芳芳,于戈
东北大学计算机科学与工程学院
摘 要:交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性.
关键词:交互式数据探索;主题提取;特征选择;样本发现;机器学习;