多智能体实验者 (MAX)
我们提出了一个通用的多 Agent 探索平台 MAexp,该平台整合了各种最先进的 MARL 算法和代表性场景,通过使用点云来表示探索场景,实现了高保真度的环境映射和大约比现有平台快 40 倍的采样速度。此外,MAexp 还配备了基于注意力的多 Agent 目标生成器和单 Agent 运动规划器,可以适应任意数量的 Agent 和各种类型的机器人。我们进行了大量实验,建立了一个旨在为具有连续动作的机器人在典型场景下展示几种高性能 MARL 算法的第一个基准。
Apr, 2024
论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。
Oct, 2018
我们提出了一种多智能体 Minecraft 模拟器 MineLand,通过引入有限的多模态感知和物质需求,弥合了传统多智能体模拟器对完美信息和无限能力的假设,支持最多 48 个智能体,强制它们通过通信和协作来满足食物和资源等物质需求,从而促进了动态有效的多智能体交互,还引入了一个灵感来自多任务理论的 AI 智能体框架 Alex,使智能体能够处理复杂的协调和调度,实验证明该模拟器、相应的基准测试和 AI 智能体框架对于实现更生态和细致的集体行为具有积极作用。
Mar, 2024
Megaverse 是一个新的 3D 模拟平台,可用于强化学习和具身智能研究,其高效的引擎设计可以在单个 8-GPU 节点上以每秒超过 1,000,000 次的速度进行基于物理的模拟,是 DeepMind Lab 的 70 倍以上,用于建立涵盖多种认知挑战的多项智能任务的基准,提供模型无关的 RL 基线并促进未来研究。
Jul, 2021
Waymax 是一个新的基于数据驱动的自动驾驶多代理场景模拟器,它使用真实世界的驾驶数据初始化和回放多样的模拟场景,并支持训练中的图内模拟,适用于现代的大规模分布式机器学习工作流程。它还包括多个学习和硬编码的行为模型,以支持在模拟环境中进行真实交互。通过对不同设计决策进行消融研究,我们还对一套常用的模仿学习和强化学习算法进行了基准测试,强调了路线规划对规划代理的有效性以及强化学习对模拟代理的过拟合能力。
Oct, 2023
开发一个模拟框架软件,使用现代工程方法(如模块化,测试,持续开发和持续集成,自动化构建管理,依赖性和文档管理)和敏捷原则,以进行工业案例的快速原型设计和逼真的可行性分析(即通过模拟涉及大量参与者的复杂实验来测试假设,在一个或多个区块链系统中)。
Apr, 2024
通过模拟 MMORPG 游戏和真实世界中的有限资源竞争环境,研究了大规模多智能体交互的学习和发展,实验表明,种群规模可以放大并刺激技能行为发展,产生优于小规模训练的代理人。
Mar, 2019
MAgent 是一个高度可扩展和可定制的平台,支持多智能体强化学习任务和应用程序,并提供可观察和理解个体智能体行为和社会现象的功能,此演示以三个环境为例展示了从零开始学习的集体智能的表现。
Dec, 2017
我们提出了 Meta MMO,这是一个用于强化学习基准的多代理小游戏集合,它建立在之前两次 NeurIPS 竞赛的研究基础 Neural MMO 之上,并扩展了该环境的多个计算效率高的小游戏。我们通过使用一组权重学习玩多个小游戏来探索 Meta MMO 的泛化能力。我们以 MIT 许可证发布了环境、基线和训练代码。我们希望 Meta MMO 能够推动 Neural MMO 和更广泛的多代理泛化研究取得额外进展,并且成为一个有用的基准。
Jun, 2024
此研究论文利用 JAX 实现的开源代码库 JaxMARL,通过 GPU 加速以及更灵活的环境设计,提供了高效且全面的多智能体强化学习训练框架,有效应对了计算负担、样本复杂性等挑战。
Nov, 2023