分布式多智能体强化学习研究框架Mava

Jul, 2021

分布式多智能体强化学习研究框架Mava

Mava: a research framework for distributed multi-agent reinforcement learning

Arnu Pretorius, Kale-ab Tessera, Andries P. Smit, Claude Formanek, St John Grimbly...

TL;DR本文介绍了一种名为Mava的研究框架，它专门为构建可扩展的多智能体 RL 系统而设计。Mava提供了有用的组件，抽象层，实用工具和通信模块，使得相应算法更容易复现和扩展，并且具备高度的灵活性和可组合性，同时实现具有良好扩展性的系统培训和执行，并在多智能体环境中进行分布式系统训练取得了良好的实验结果。

Abstract

Breakthrough advances in reinforcement learning (RL) research have led to a surge in the development and application of RL. To support the field and its rapid growth, several frameworks have emerged that aim to help the community more easily build effective and scalable agents. However

发现论文，激发创造

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及MARL在真实世界应用中的成功，并提供了可用于MARL研究的环境列表和可能的研究方向。

Aug, 2019

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于模型的多智能体强化学习: 最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

MARLlib: 为多智能体强化学习扩展RLlib

本文提出Multi-Agent RLlib (MARLlib)，即一套多智能体强化学习算法库，通过使用新型的基于智能体的分布式数据流设计，成功地统一了数十种算法，包括不同类型的独立学习、集中式批判家和价值分解方法，提供了灵活的参数共享策略和多样的环境接口，为解决各种合作、竞争和混合任务问题提供了一站式的解决方案。

Oct, 2022

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为OG-MARL的离线MARL数据集和算法框架，包括一套标准评估方案。OG-MARL的数据集本质上是从在线MARL基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

JaxMARL：基于JAX的多智能体强化学习环境

此研究论文利用JAX实现的开源代码库JaxMARL，通过GPU加速以及更灵活的环境设计，提供了高效且全面的多智能体强化学习训练框架，有效应对了计算负担、样本复杂性等挑战。

Nov, 2023

多智能体强化学习：综述

该论文调查了多智能体系统中学习最优控制的复杂性，旨在深入理解多智能体应用的机遇和挑战，为研究人员和从业者提供有价值的观点，以促进该领域的发展。

Dec, 2023

MARL-LNS：基于大型邻域搜索的合作多智能体强化学习

合作多智能体强化学习是一个在过去五年中越来越重要的研究主题，因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架MARL-LNS，通过在交替的智能体子集上进行训练，并使用现有的深度MARL算法作为底层训练器来解决维度灾难的问题，而不需要额外的参数进行训练。基于该框架，我们提供了三种算法变种：随机大邻域搜索（RLNS），批量大邻域搜索（BLNS）和自适应大邻域搜索（ALNS），这些算法以不同的方式交替使用智能体子集。我们在StarCraft Multi-Agent Challenge和Google Research Football上测试了我们的算法，并证明我们的算法可以自动减少至少10％的训练时间，同时达到与原始算法相同的最终技能水平。

Apr, 2024

通过标准基线和评估披露离线多智体增强学习中进展的幻觉

离线多智能体强化学习（MARL）是一个备受期待的新兴领域，然而，当前离线MARL研究存在基准和评估协议的不一致性问题，这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究，确认了现有方法测量新算法性能的显著缺陷。其次，通过与这些前人工作的直接比较，我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言，在前人工作中的47个数据集中的35个（约占75%）中，我们达到或超越了当前号称的最优结果。令人惊讶的是，我们的基准方法通常远远优于这些更复杂的算法。最后，我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果，纠正了这些前人工作中的缺陷，并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤，结合可靠的基准和对比结果，可能会大大提高离线MARL的实证科学水平。

Jun, 2024