简介概要

一类非线性动态系统基于强化学习的最优控制

来源期刊:控制与决策2013年第12期

论文作者:陈学松 刘富春

文章页码:1889 - 1893

关键词:非线性动态系统;强化学习;最优控制;值函数;策略函数;

摘    要:提出一类非线性不确定动态系统基于强化学习的最优控制方法.该方法利用欧拉强化学习算法估计对象的未知非线性函数,给出了强化学习中回报函数和策略函数迭代的在线学习规则.通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化,实现了对值函数的估计和控制策略的改进.基于值函数的梯度值和时序误差指标值,给出了该算法的步骤和误差估计定理.小车爬山问题的仿真结果表明了所提出方法的有效性.

详情信息展示

一类非线性动态系统基于强化学习的最优控制

陈学松1,刘富春2

1. 广东工业大学应用数学学院2. 广东工业大学计算机学院

摘 要:提出一类非线性不确定动态系统基于强化学习的最优控制方法.该方法利用欧拉强化学习算法估计对象的未知非线性函数,给出了强化学习中回报函数和策略函数迭代的在线学习规则.通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化,实现了对值函数的估计和控制策略的改进.基于值函数的梯度值和时序误差指标值,给出了该算法的步骤和误差估计定理.小车爬山问题的仿真结果表明了所提出方法的有效性.

关键词:非线性动态系统;强化学习;最优控制;值函数;策略函数;

<上一页 1 下一页 >

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号