模型未知非零和博弈问题的策略迭代算法
来源期刊:东北大学学报(自然科学版)2015年第3期
论文作者:杨明 罗艳红 王义贺
文章页码:318 - 647
关键词:自适应动态规划;非零和博弈;策略迭代;神经网络;最优控制;
摘 要:提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.
杨明1,罗艳红1,王义贺2
1. 东北大学信息科学与工程学院2. 国网辽宁省电力有限公司经济技术研究院
摘 要:提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.
关键词:自适应动态规划;非零和博弈;策略迭代;神经网络;最优控制;