简介概要

基于对称扰动采样的Actor-critic算法

来源期刊：控制与决策2015年第12期

论文作者：张春元朱清新

文章页码：2161 - 2167

关键词：Actor-critic方法;对称扰动采样;连续空间;强化学习;

摘要：针对传统Actor-critic（AC）方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分（TD）误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率.

详情信息展示

基于对称扰动采样的Actor-critic算法

张春元^1,2，朱清新¹

1. 电子科技大学计算机科学与工程学院2. 海南大学信息科学技术学院

摘要：针对传统Actor-critic（AC）方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分（TD）误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率.

关键词：Actor-critic方法;对称扰动采样;连续空间;强化学习;

<上一页 1 下一页 >

相关论文

从知识的表达和运用综述强化学习研究

基于强化学习的机械臂避碰研究

基于强化学习的模糊自适应控制器

连续空间增量最近邻时域差分学习

基于强化学习的三维游戏控制算法

移动机器人运动规划中的深度强化学习方法

基于最小最大逼近强化学习的误差分析

基于内部回归神经网络的强化学习

随机博弈框架下的多agent强化学习方法综述

基于强化学习的适应性微粒群算法

相关知识点

钢铁粉末的发展历史

合金元素在钢铁粉末中的作用

20世纪我国钢铁粉末生产状况

钢铁材料生产简介

钢铁材料的结语

钢铁冶金工艺流程

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号