简介概要

MADDPG算法经验优先抽取机制

来源期刊：控制与决策2021年第1期

论文作者：何明张斌柳强陈希亮杨铖

关键词：多智能体;深度强化学习;MADDPG;经验优先抽取;

摘要：针对多智能体深度确定性策略梯度算法（MADDPG）学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法（DDPG）控制的多智能体训练具有一定的适用性.

详情信息展示

MADDPG算法经验优先抽取机制

何明¹，张斌¹，柳强²，陈希亮¹，杨铖¹

1. 中国人民解放军陆军工程大学指挥控制工程学院2. 海军指挥学院

摘要：针对多智能体深度确定性策略梯度算法（MADDPG）学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法（DDPG）控制的多智能体训练具有一定的适用性.

关键词：多智能体;深度强化学习;MADDPG;经验优先抽取;

<上一页 1 下一页 >

相关论文

基于重抽样优选缓存经验回放机制的深度强化学习方法

融合环境模型与深度强化学习的游戏算法

文本生成领域的深度强化学习研究进展

移动机器人运动规划中的深度强化学习方法

求解动态背包问题的多智能体进化算法

禁忌搜索协调的多智能体优化方法及其应用

分布式事件触发下的多智能体分组一致性

操作机器人控制的多智能体方法研究综述

基于深度强化学习的机械臂避障路径规划研究

基于k-shell分解的多智能体牵制控制算法

相关知识点

遗传算法的发展概况

仿生优化算法

遗传算法原理与方法

粒子群优化算法的基本原理

矿床的三维模型预测算法

基于BP网络算法的矿产资源评价方法

Al-50%Si合金的失效机制

采矿系统工程中使用的群集拟生态算法

学习邯钢经验实现扭亏为盈

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号