自适应RBF网络Q学习控制
来源期刊:控制与决策2010年第2期
论文作者:徐明亮 须文波
文章页码:303 - 306
关键词:RBF网络;自组织;Q学习;连续空间;优化;
摘 要:利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.
徐明亮,须文波
江南大学信息工程学院
摘 要:利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.
关键词:RBF网络;自组织;Q学习;连续空间;优化;