具备相关性图的深度多智能体强化学习
本文介绍了一种新的多智能体强化学习方法,称为 MAGNet,利用自我关注机制和消息生成技术对环境进行了相关图表示,应用于合成捕食者 - 猎物多智能体环境和 Pommerman 游戏,结果表明它在性能上显著优于其他最先进的多智能体强化学习解决方案。
Dec, 2020
本文介绍了一种基于邻域的多智能体强化学习算法,并提出了两种基于超图结构的变体方法,其中利用超图卷积网络实现了信息提取和表示学习,具有实现有效合作的显著优势。
Mar, 2022
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法(Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention),以更有效地捕获邻居智能体的特征信息,以选择更有效的行动,该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。
Apr, 2023
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文提出了一种新的多智能体强化学习方法,旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构,有效提高学习性能,并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上,我们提出了一种实用的训练算法,利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上,我们利用了四个 DAG 环境,包括英特尔高容量封装和测试工厂的真实排程,对我们的方法进行基准测试,证明其优于其他非 DAG 方法。
Jul, 2023
本文介绍了一种使用深度循环多智能体演员 - 评论家框架(R-MADDPG)处理部分可观测设置和有限通信下多智能体协调的方法,并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明,该框架可以学习随时间变化的依赖关系,处理资源限制,并在智能体之间开发不同的通信模式。
Feb, 2020
提出一种基于多智能体强化学习和图神经网络通讯层的方法,在火灾管理资源分配中,通过通信环境特征和部分可见火灾,实现协作分配资源,优于贪心启发式基线和单智能体设置,并展示了自动课程和开放性对其泛化能力的改善。
Apr, 2022