求解部分可观测马氏决策过程的强化学习算法
来源期刊:控制与决策2004年第11期
论文作者:王学宁 贺汉根 徐昕
文章页码:1263 - 1266
关键词:强化学习;部分可观测Markov决策过程;Sarsa学习;无记忆策略;
摘 要:针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
王学宁,贺汉根,徐昕
摘 要:针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
关键词:强化学习;部分可观测Markov决策过程;Sarsa学习;无记忆策略;