简介概要

连续空间增量最近邻时域差分学习

来源期刊:控制与决策2014年第12期

论文作者:张春元 朱清新 钟声

文章页码:2121 - 2128

关键词:时域差分学习;值函数逼近;策略逼近;局部加权学习;

摘    要:针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新.就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析.对24种方案组合进行仿真验证的实验结果表明,SNDN组合具有较好的学习性能和计算效率.

详情信息展示

连续空间增量最近邻时域差分学习

张春元1,2,朱清新1,钟声2

1. 电子科技大学计算机科学与工程学院2. 海南大学信息科学技术学院

摘 要:针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新.就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析.对24种方案组合进行仿真验证的实验结果表明,SNDN组合具有较好的学习性能和计算效率.

关键词:时域差分学习;值函数逼近;策略逼近;局部加权学习;

<上一页 1 下一页 >

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号