用于训练通才智能体的大规模多智能体小游戏

Jun, 2024

用于训练通才智能体的大规模多智能体小游戏

Massively Multiagent Minigames for Training Generalist Agents

Kyoung Whan Choe, Ryan Sullivan, Joseph Suárez

TL;DR我们提出了 Meta MMO，这是一个用于强化学习基准的多代理小游戏集合，它建立在之前两次 NeurIPS 竞赛的研究基础 Neural MMO 之上，并扩展了该环境的多个计算效率高的小游戏。我们通过使用一组权重学习玩多个小游戏来探索 Meta MMO 的泛化能力。我们以 MIT 许可证发布了环境、基线和训练代码。我们希望 Meta MMO 能够推动 Neural MMO 和更广泛的多代理泛化研究取得额外进展，并且成为一个有用的基准。

Abstract

We present meta mmo, a collection of many-agent minigames for use as a reinforcement learning →

meta mmo many-agent minigames reinforcement learning neural mmo benchmark

发现论文，激发创造

神经 MMO：用于智能体训练和评估的大规模多智能体游戏环境

通过模拟 MMORPG 游戏和真实世界中的有限资源竞争环境，研究了大规模多智能体交互的学习和发展，实验表明，种群规模可以放大并刺激技能行为发展，产生优于小规模训练的代理人。

Mar, 2019

神经 MMO 2.0：多任务增强的大规模多智能体学习

Neural MMO 2.0 是一个大规模多智能体环境，用于强化学习研究，主要特点是灵活的任务系统和程序生成的地图。

Nov, 2023

多智能体系统中的鲁棒性和泛化性能基准测试：神经互动多人在线游戏案例研究

第二届 Neural MMO 挑战赛的结果表明，在多智能体系统中的鲁棒性和泛化性能上取得了令人满意的成果，参与者通过使用标准强化学习方法结合领域特定的工程技术，训练出能够在与训练过程中未见过的对手下完成多任务目标的智能体团队。该挑战赛的设计和结果总结表明，作为学术界的一种强有力的方法，竞赛可以解决难题并为算法建立可靠的基准。我们将开源我们的基准测试，包括环境封装器、基准模型、可视化工具和选定的策略，以供进一步研究。

Aug, 2023

NeurIPS 2022 神经网络 MMO 挑战赛：基于专业化和交易的大规模多智能体竞赛

该论文总结了 NeurIPS-2022 神经多人在线游戏挑战赛的设计和结果，探索了该环境作为学习方法基准的潜力，并提出了一些对于具有稀疏奖励的复杂任务的实用强化学习训练方法。另外，论文还开源了基线模型，包括环境封装器、基准测试和可视化工具，以供未来研究使用。

Nov, 2023

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

利用学习目标改善元强化学习中的泛化能力

该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数，并可以推广到不同于元训练的新环境中发挥作用，具有大幅增加采样效率的离线二阶梯度。

Oct, 2019

MineDojo：基于互联网规模知识构建开放式具身代理

介绍了建立于 Minecraft 游戏之上的 MineDojo 框架，该框架支持多任务目标环境，同时结合大规模的多模态知识库和灵活可扩展的代理架构，利用大规模的预先训练的视频语言模型作为学习奖励函数的新型代理学习算法，成功解决一系列无需设计的开放式任务。

Jun, 2022

在多智能体环境中开发、评估和扩展学习智能体

DeepMind 的 “博弈论与多智能体团队” 研究了多智能体学习的多个方面，旨在使用深度强化学习探索复杂环境下的多智能体系统，并使用这些基准来推进我们的理解；本文总结了他们最近的工作并提出了一项分类，突显了多智能体研究中许多重要的开放性挑战。

Sep, 2022

MAgent: 一个用于人工集体智能的许多智能体强化学习平台

MAgent 是一个高度可扩展和可定制的平台，支持多智能体强化学习任务和应用程序，并提供可观察和理解个体智能体行为和社会现象的功能，此演示以三个环境为例展示了从零开始学习的集体智能的表现。

Dec, 2017

XLand-MiniGrid：基于 JAX 的可扩展元强化学习环境

我们提出了 XLand-MiniGrid，这是一个基于 XLand 的多样性和深度以及 MiniGrid 的简洁和极简主义所启发的元强化学习研究工具和网格世界环境套件。

Dec, 2023