FightLadder：竞争多智能体强化学习的基准

ICMLJun, 2024

FightLadder：竞争多智能体强化学习的基准

FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning

Wenzhe Li, Zihan Ding, Seth Karten, Chi Jin

TL;DR这项研究提出了一种基于实时格斗游戏平台的竞技多智能体强化学习（MARL）研究，在此平台上提供了先进的 MARL 算法实施以及一套评估指标，以解决竞争性环境中的关键挑战，旨在促进该领域的新发现和进展。

Abstract

Recent advances in reinforcement learning (RL) heavily rely on a variety of well-designed benchmarks, which provide environmental platforms and consistent criteria to evaluate existing and novel algorithms. Specifically, in →

reinforcement learning multi-agent rl competitive games fightladder competitive marl research

发现论文，激发创造

BenchMARL: 多智能体强化学习基准

多智能体强化学习领域面临再现性危机，本文引入 BenchMARL 作为第一个用于标准化基准测试的训练库，具备高性能和最新技术实现，从而满足多智能体 PyTorch 用户的需求。

Dec, 2023

MalmÖ 中的多智能体强化学习（MARLÖ）竞赛

该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛，它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念，并建议作为人工智能通用智能方向的一个里程碑挑战。

Jan, 2019

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

MARLlib: 为多智能体强化学习扩展 RLlib

本文提出 Multi-Agent RLlib (MARLlib)，即一套多智能体强化学习算法库，通过使用新型的基于智能体的分布式数据流设计，成功地统一了数十种算法，包括不同类型的独立学习、集中式批判家和价值分解方法，提供了灵活的参数共享策略和多样的环境接口，为解决各种合作、竞争和混合任务问题提供了一站式的解决方案。

Oct, 2022

作为终身学习现实场景的持续协调

本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

JaxMARL：基于 JAX 的多智能体强化学习环境

此研究论文利用 JAX 实现的开源代码库 JaxMARL，通过 GPU 加速以及更灵活的环境设计，提供了高效且全面的多智能体强化学习训练框架，有效应对了计算负担、样本复杂性等挑战。

Nov, 2023

StarCraft 多智能体挑战 +: 在没有精确奖励函数的情况下学习多阶段任务和环境因素

本文提出了一个叫做 SMAC + 的新型基准，该基准旨在探索 MARL 算法在 StarCraft 遊戲中学习隐含的多阶段任务、环境因素和微控制的能力。在攻击和防御场景中，该基准要求智能体进行多方面探索，进一步提高算法的探索能力。研究结果表明，近年来的一些算法在该基准中表现良好，但在攻击场景方面表现不佳，为未来的研究提供了新的方向。

Jul, 2022

复杂实时战略游戏中的多智能体强化学习集中式控制

本研究通过在 Lux AI v2 Kaggle 比赛中应用 RL，使用一种集中式方法来训练 RL 代理，并报告了沿途的多个设计决策，以控制多种类型的变量大小编队群，从而解决多优化问题。

Apr, 2023

一项多功能的多智能体强化学习库存管理基准测试

本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估，并探讨了多益智智能算法在实际行业中的应用。

Jun, 2023