多智能体强化学习中的递归推理图

AAAIMar, 2022

多智能体强化学习中的递归推理图

Recursive Reasoning Graph for Multi-Agent Reinforcement Learning

Xiaobai Ma, David Isele, Jayesh K. Gupta, Kikuo Fujimura, Mykel J. Kochenderfer

TL;DR采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Abstract

multi-agent reinforcement learning (MARL) provides an efficient way for simultaneously learning policies for multiple agents interacting with each other. However, in scenarios requiring complex interactions, existing algorithms can suffer from an inability to accurately anticipate the

multi-agent reinforcement learning recursive reasoning model centralized-training-decentralized-execution framework cooperation competition

发现论文，激发创造

一般化递归推理模型下多智体互动中的有界理性建模

本文提出了一种广义的递归推理（GR2）框架，旨在建模具有不同分层次理性的代理，其架构能够使代理表现出不同层次的 “思考” 能力，使得上层代理可以更好地应对各种不那么复杂的学习者。我们在理论和实验方面都有贡献，首先在理论方面，通过概率图模型设计了 GR2 的分层架构，并证明了完美贝叶斯均衡存在。其次，在实证方面，我们在多种 MARL 基准测试中验证了我们的发现，证明了我们提出的方法在效果上具有巨大的优势。

Jan, 2019

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

具备相关性图的深度多智能体强化学习

本文提出了一种新的多智能体强化学习方法 MAGnet，将深度强化学习、自我关注机制、神经网络结构等技术应用于 Pommerman 游戏，实验结果表明，MAGnet 在该游戏中显著优于现有的 MARL 解决方案，如 DQN，MADDPG 和 MCTS 等。

Nov, 2018

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

野火管理资源分配的图神经网络通信层协作自适应多智能体强化学习

提出一种基于多智能体强化学习和图神经网络通讯层的方法，在火灾管理资源分配中，通过通信环境特征和部分可见火灾，实现协作分配资源，优于贪心启发式基线和单智能体设置，并展示了自动课程和开放性对其泛化能力的改善。

Apr, 2022

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

在有向无环图约束下学习多个协同代理

本文提出了一种新的多智能体强化学习方法，旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构，有效提高学习性能，并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上，我们提出了一种实用的训练算法，利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上，我们利用了四个 DAG 环境，包括英特尔高容量封装和测试工厂的真实排程，对我们的方法进行基准测试，证明其优于其他非 DAG 方法。

Jul, 2023