简介概要

基于拉普拉斯特征映射的启发式Q学习

来源期刊：控制与决策2014年第3期

论文作者：朱美强李明程玉虎张倩王雪松

文章页码：425 - 430

关键词：强化学习;启发式策略选择;Q学习;拉普拉斯特征映射;

摘要：在基于目标的强化学习任务中,欧氏距离常作为启发式函数用于策略选择,其用于状态空间在欧氏空间内不连续的任务效果不理想.针对此问题,引入流形学习中计算复杂度较低的拉普拉斯特征映射法,提出一种基于谱图理论的启发式策略选择方法.所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续,且相邻状态间的连接关系为无向图的任务.格子世界的仿真结果验证了所提出方法的有效性.

详情信息展示

基于拉普拉斯特征映射的启发式Q学习

朱美强，李明，程玉虎，张倩，王雪松

中国矿业大学信息与电气工程学院

摘要：在基于目标的强化学习任务中,欧氏距离常作为启发式函数用于策略选择,其用于状态空间在欧氏空间内不连续的任务效果不理想.针对此问题,引入流形学习中计算复杂度较低的拉普拉斯特征映射法,提出一种基于谱图理论的启发式策略选择方法.所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续,且相邻状态间的连接关系为无向图的任务.格子世界的仿真结果验证了所提出方法的有效性.

关键词：强化学习;启发式策略选择;Q学习;拉普拉斯特征映射;

<上一页 1 下一页 >

相关论文

一类用于井下路径规划问题的Dyna_Q学习算法

基于ART2的Q学习算法研究

基于支持向量机的连续状态空间Q学习

基于概率型支持向量分类机的Q学习

单交叉口信号配时的离线Q学习模型研究

基于改进Q学习的知识化制造自适应动态调度策略

未知环境下基于有先验知识的滚动Q学习机器人路径规划

基于强化学习算法的多机器人系统的冲突消解策略

基于多智能体强化学习的新强化函数设计

基于强化学习的三指灵巧手抓取方法研究

相关知识点

拉普拉斯变换

冶金生产过程中数据缺失情况下的流形半监督学习

拉普拉斯变换的基本性质

Q质量岩体分类

多阶段序贯决策问题启发式蚁群算法

含水层渗透系数进化-映射反分析

拉普拉斯方程

统计学习理论与支持向量机

拉普拉斯变换

地应力映射模型直接反分析

黏弹性各向异性介质中Q的定义

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号