大数据中基于稀疏投影的在线特征选择算法
来源期刊:湖南科技大学学报自然科学版2018年第3期
论文作者:张自敏
文章页码:93 - 101
关键词:在线学习;截断技术;稀疏投影;特征选择;在线平均错误率;大数据挖掘;
摘 要:大多数在线学习研究要求访问训练实例的所有属性/特征.这一典型要求在大数据应用中难以满足,因为数据实例的维度可能很高,为了获得完整的属性/特征集而访问所有属性/特征时的成本太高.针对这一问题,首先利用截断技术提出改进的Perceptron算法用于在线特征选择,然后针对该算法错误率较高的缺点,提出一种基于稀疏投影的在线特征选择算法(OFS),并给出了OFS算法误差边界的理论分析.最后基于多种公开数据集的实验结果表明,本文算法的在线平均错误率和时间效率等方面性能要优于著名的批特征选择算法,在大规模应用中具有广阔前景.
张自敏
贺州学院教育技术中心
摘 要:大多数在线学习研究要求访问训练实例的所有属性/特征.这一典型要求在大数据应用中难以满足,因为数据实例的维度可能很高,为了获得完整的属性/特征集而访问所有属性/特征时的成本太高.针对这一问题,首先利用截断技术提出改进的Perceptron算法用于在线特征选择,然后针对该算法错误率较高的缺点,提出一种基于稀疏投影的在线特征选择算法(OFS),并给出了OFS算法误差边界的理论分析.最后基于多种公开数据集的实验结果表明,本文算法的在线平均错误率和时间效率等方面性能要优于著名的批特征选择算法,在大规模应用中具有广阔前景.
关键词:在线学习;截断技术;稀疏投影;特征选择;在线平均错误率;大数据挖掘;