使用 Melting Pot 进行可扩展的多智能体强化学习评估

ICMLJul, 2021

使用 Melting Pot 进行可扩展的多智能体强化学习评估

Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot

Joel Z. Leibo, Edgar Duéñez-Guzmán, Alexander Sasha Vezhnevets, John P. Agapiou, Peter Sunehag...

TL;DR本论文提出了一种名为 Melting Pot 的 MARL 评估套件，旨在评估新情况下的泛化能力，并使用强化学习降低开发新测试场景所需的人力成本。该套件由 80 个测试场景组成，覆盖了社交困境、互惠、资源共享和任务划分等广泛的研究领域，通过应用这些测试场景到标准 MARL 训练算法中，揭示了不仅仅是训练表现的弱点。

Abstract

Existing evaluation suites for multi-agent reinforcement learning (MARL) do not assess generalization to novel situations as their primary objective (unlike supervised-learning benchmarks). Our contribution, Melt

multi-agent reinforcement learning generalization evaluation suite test scenarios scalability

发现论文，激发创造

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

一年间能发生多大变化？重新审视多智能体强化学习中的评估

确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域，虽然取得了令人激动的进展，但近期在合作设置方面，它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题，但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库，包含了来自顶级会议的深度多智能体强化学习出版物的元数据，并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明，许多性能报告方面令人担忧的趋势仍然存在，包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是，我们观察到 SMAC-v1 中更困难场景的趋势，如果这一趋势延续到 SMAC-v2，将鼓励新颖的算法开发。我们的数据表明，多智能体强化学习社区需要更加积极地面对可复制性，以确保在我们迈向令人激动的新领域时对该领域的信任。

Dec, 2023

BenchMARL: 多智能体强化学习基准

多智能体强化学习领域面临再现性危机，本文引入 BenchMARL 作为第一个用于标准化基准测试的训练库，具备高性能和最新技术实现，从而满足多智能体 PyTorch 用户的需求。

Dec, 2023

评估多智能体强化学习在不同智能体数量下的泛化和转移能力

本研究采用集中式训练和分散式执行的范式来评估多智能体强化学习模型的推广和转移能力，结果表明通过使用更少的智能体进行训练可以获得类似或更高的评估性能。

Nov, 2021

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

MalmÖ 中的多智能体强化学习（MARLÖ）竞赛

该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛，它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念，并建议作为人工智能通用智能方向的一个里程碑挑战。

Jan, 2019

基于多智能体强化学习的多方案组合优化广告推荐系统

本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题，通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度（MARDPG）算法，以共享目标对不同场景进行整合，并允许策略间的通信以提高整体性能。我们的结果表明，在点击率（CTR）、转化率和总销售额等指标上，我们的方法在实际环境中具有显著改进的效果。

Jul, 2024

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017