MARLlib: 为多智能体强化学习扩展RLlib
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文介绍了MARLeME库:一种MARL模型提取库,旨在通过近似符号模型来提高MARL系统的可解释性。符号模型具有高度的可解释性,可检查和更好地理解底层MARL系统和相应的MARL代理,以及替换特别安全和安全关键的所有/一些代理。
Apr, 2020
本文介绍了一种名为Mava的研究框架,它专门为构建可扩展的多智能体 RL 系统而设计。Mava提供了有用的组件,抽象层,实用工具和通信模块,使得相应算法更容易复现和扩展,并且具备高度的灵活性和可组合性,同时实现具有良好扩展性的系统培训和执行,并在多智能体环境中进行分布式系统训练取得了良好的实验结果。
Jul, 2021
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
本篇论文通过元分析探究了近年来多智能体强化学习中合作场景下的评价方法,并提出了一个标准化的性能评估协议以提高未来相关研究的可信度与可复现性。
Sep, 2022
多智能体强化学习领域面临再现性危机,本文引入BenchMARL作为第一个用于标准化基准测试的训练库,具备高性能和最新技术实现,从而满足多智能体PyTorch用户的需求。
Dec, 2023
离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线MARL研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究,确认了现有方法测量新算法性能的显著缺陷。其次,通过与这些前人工作的直接比较,我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言,在前人工作中的47个数据集中的35个(约占75%)中,我们达到或超越了当前号称的最优结果。令人惊讶的是,我们的基准方法通常远远优于这些更复杂的算法。最后,我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果,纠正了这些前人工作中的缺陷,并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤,结合可靠的基准和对比结果,可能会大大提高离线MARL的实证科学水平。
Jun, 2024