基于强化学习的大时延过程控制策略研究
来源期刊:控制工程2021年第1期
论文作者:邓颢楠 刘树波 李丹 曹辉
文章页码:35 - 41
关键词:模型预测控制;强化学习;大时延;过程控制;长时收益;
摘 要:具有长时延的过程控制被公认为是较难的系统过程控制。模型预测控制(MPC)是一种适用于大时延过程的新的过程控制方法。相比于PID等传统的控制方法,MPC基于模型对未来状态的预测进行决策,能够兼顾及时反馈与长期规划。但MPC对于过程的预测步数依然是有限的。强化学习作为机器学习的重要部分,原则上能够预测策略在无限长时间内的收益。作者基于强化学习方法改进混凝剂添加过程中的控制算法,利用大量仿真数据训练模型,成功提升了该过程的控制效果。通过对该方法进行仿真模拟,并与传统的MPC方法进行对比,证明了使用强化学习改进过的控制方法在大时延过程控制中的总体表现优于传统MPC方法。
邓颢楠1,刘树波1,李丹2,曹辉1
1. 武汉大学计算机学院2. 湖北省水利水电科学研究院
摘 要:具有长时延的过程控制被公认为是较难的系统过程控制。模型预测控制(MPC)是一种适用于大时延过程的新的过程控制方法。相比于PID等传统的控制方法,MPC基于模型对未来状态的预测进行决策,能够兼顾及时反馈与长期规划。但MPC对于过程的预测步数依然是有限的。强化学习作为机器学习的重要部分,原则上能够预测策略在无限长时间内的收益。作者基于强化学习方法改进混凝剂添加过程中的控制算法,利用大量仿真数据训练模型,成功提升了该过程的控制效果。通过对该方法进行仿真模拟,并与传统的MPC方法进行对比,证明了使用强化学习改进过的控制方法在大时延过程控制中的总体表现优于传统MPC方法。
关键词:模型预测控制;强化学习;大时延;过程控制;长时收益;