双平均原始对偶优化的多智能体强化学习

Jun, 2018

双平均原始对偶优化的多智能体强化学习

Multi-Agent Reinforcement Learning via Double Averaging Primal-Dual Optimization

Hoi-To Wai, Zhuoran Yang, Zhaoran Wang, Mingyi Hong

TL;DR该论文提出了一种双重平均方案，其中每个代理迭代地执行平均化，以融合相邻梯度信息和本地奖励信息，解决多智能体强化学习中的政策评估问题，并且实现了分散的凸凹螺旋点问题的快速收敛。

Abstract

Despite the success of single-agent reinforcement learning, multi-agent reinforcement learning (MARL) remains challenging due to complex interactions between agents. Motivated by decentralized applications such as sensor networks, swarm robotics, and power grids, we study policy evaluation

multi-agent reinforcement learning policy evaluation double averaging scheme decentralized convex-concave saddle-point problem primal-dual optimization algorithm

发现论文，激发创造

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

带有定向协调图的分布式合作多智能体强化学习

本文提出了一种分布式强化学习算法，该算法使用直接协调图和局部值函数，通过零阶优化方法进行条件估计，没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比，我们的算法保证了高可扩展性。

Jan, 2022

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

具有通用效用的可扩展多智能体强化学习

我们研究了具有通用效用的可扩展多代理强化学习，通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法，该算法不需要全观察每个代理的情况，可以最大化团队的平均局部效用函数。

Feb, 2023