简介概要

一类非线性动态系统基于强化学习的最优控制

来源期刊：控制与决策2013年第12期

论文作者：陈学松刘富春

文章页码：1889 - 1893

关键词：非线性动态系统;强化学习;最优控制;值函数;策略函数;

摘要：提出一类非线性不确定动态系统基于强化学习的最优控制方法.该方法利用欧拉强化学习算法估计对象的未知非线性函数,给出了强化学习中回报函数和策略函数迭代的在线学习规则.通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化,实现了对值函数的估计和控制策略的改进.基于值函数的梯度值和时序误差指标值,给出了该算法的步骤和误差估计定理.小车爬山问题的仿真结果表明了所提出方法的有效性.

详情信息展示

一类非线性动态系统基于强化学习的最优控制

陈学松¹，刘富春²

1. 广东工业大学应用数学学院2. 广东工业大学计算机学院

摘要：提出一类非线性不确定动态系统基于强化学习的最优控制方法.该方法利用欧拉强化学习算法估计对象的未知非线性函数,给出了强化学习中回报函数和策略函数迭代的在线学习规则.通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化,实现了对值函数的估计和控制策略的改进.基于值函数的梯度值和时序误差指标值,给出了该算法的步骤和误差估计定理.小车爬山问题的仿真结果表明了所提出方法的有效性.

关键词：非线性动态系统;强化学习;最优控制;值函数;策略函数;

<上一页 1 下一页 >

相关论文

带饱和执行器的非线性离散时滞系统的最优控制

基于强化学习的JLQ模型的直接自适应最优控制

基于最小最大逼近强化学习的误差分析

智能隔震结构序列最优控制Simulink仿真分析

基于近端强化学习的股价预测方法

风险敏感性最优控制问题研究

基于离散时间最优控制的航空发动机装配序列规划

基于强化学习的工控系统恶意软件行为检测方法

基于双线性模型的连续时间非线性最优控制的DISOPE算法

应用m序列及逆重复m序列辨识非线性动态系统

相关知识点

净现值函数

插值函数的单元积分

有限单元法内的插值函数

插值函数的长度坐标的定义

净现值函数

有限单元法中插值函数的构造

模型交替调整反演法中的插值函数表建立

二维变分分析极值函数

Al-Zn-Mg合金时效析出序列

时间序列与随机过程

等比序列支付类型

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号