基于重抽样优选缓存经验回放机制的深度强化学习方法
来源期刊:控制与决策2018年第4期
论文作者:陈希亮 曹雷 李晨溪 徐志雄 何明
文章页码:600 - 606
关键词:深度强化学习;缓存回放;重抽样;
摘 要:针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.
陈希亮,曹雷,李晨溪,徐志雄,何明
解放军理工大学指挥信息系统学院
摘 要:针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.
关键词:深度强化学习;缓存回放;重抽样;