简介概要

求解部分可观测马氏决策过程的强化学习算法

来源期刊：控制与决策2004年第11期

论文作者：王学宁贺汉根徐昕

文章页码：1263 - 1266

关键词：强化学习;部分可观测Markov决策过程;Sarsa学习;无记忆策略;

摘要：针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.

详情信息展示

求解部分可观测马氏决策过程的强化学习算法

王学宁，贺汉根，徐昕

摘要：针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.

关键词：强化学习;部分可观测Markov决策过程;Sarsa学习;无记忆策略;

<上一页 1 下一页 >

相关论文

连续状态自适应离散化基于K-均值聚类的强化学习方法

基于强化学习的大时延过程控制策略研究

基于强化学习算法的多机器人系统的冲突消解策略

基于模糊神经网络的强化学习及其在机器人导航中的应用

一类非线性动态系统基于强化学习的最优控制

基于强化学习的机械臂避碰研究

基于强化学习的适应性微粒群算法

同分布强化学习优化多决策树及其在非平衡数据集中的应用

文本生成领域的深度强化学习研究进展

基于强化学习的工控系统恶意软件行为检测方法

相关知识点

支持向量机及学习算法

机器学习方法简介

工程决策支持

逆拉氏傅氏变换算法精度分析

冶金生产过程中数据缺失情况下的流形半监督学习

统计学习理论与支持向量机

样本点间的马氏距离

机械原理的学习要点

冶金生产过程中的数据矩阵的马氏距离

BP神经网络的学习算法

机器学习遗传算法的应用情况

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号