可扩展的多智体强化学习高性能模拟

ICMLJul, 2022

可扩展的多智体强化学习高性能模拟

High Performance Simulation for Scalable Multi-Agent Reinforcement Learning

Jordan Langham-Lopez, Sebastian M. Schmon, Patrick Cannon

TL;DR本论文介绍了一种高性能代理基于模型的框架 ——Vogue，可以支持成千上万的互动代理的训练环境，此规模的高性能多智能体环境有望实现在复杂系统中建立灵活且健壮的策略。本研究展示了两个新开发的大规模多智能体训练环境的训练表现，并表明这些环境可以在几分钟甚至几小时的时间尺度上训练共享 RL 策略。

Abstract

multi-agent reinforcement learning experiments and open-source training environments are typically limited in scale, supporting tens or sometimes up to hundreds of interacting agents. In this paper we demonstrate

multi-agent reinforcement learning training environment vogue gpu

发现论文，激发创造

Megaverse: 以每秒一百万体验模拟具身代理

Megaverse 是一个新的 3D 模拟平台，可用于强化学习和具身智能研究，其高效的引擎设计可以在单个 8-GPU 节点上以每秒超过 1,000,000 次的速度进行基于物理的模拟，是 DeepMind Lab 的 70 倍以上，用于建立涵盖多种认知挑战的多项智能任务的基准，提供模型无关的 RL 基线并促进未来研究。

Jul, 2021

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

开放式任务空间中的人类时间尺度适应

本文介绍了一种训练 RL 代理器的方法，通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表，该代理器可以快速适应开放式的 3D 问题，并具有自适应性。

Jan, 2023

超级智能体：用于复杂环境的简洁、可扩展、高效和可证明的强化学习框架

提出了一种基于 HyperAgent 的强化学习框架，通过超模型、索引采样方案和增量更新机制，在资源约束下实现对复杂任务的简化、高效和可伸缩性，以及超越共轭的通用值函数近似下的计算高效的顺序后验近似和数据高效的动作选择。

Feb, 2024

大规模人口系统和可扩展多智能体强化学习调查

这篇综述论文研究了在大规模群体系统中进行可控分析和多智能体强化学习的关键问题和挑战，介绍了现有的相关研究领域和方法，并讨论了未来的应用前景和方向。

Sep, 2022

MAgent: 一个用于人工集体智能的许多智能体强化学习平台

MAgent 是一个高度可扩展和可定制的平台，支持多智能体强化学习任务和应用程序，并提供可观察和理解个体智能体行为和社会现象的功能，此演示以三个环境为例展示了从零开始学习的集体智能的表现。

Dec, 2017

深度强化学习大批量模拟

该论文在复杂的 3D 环境中，通过设计以 “batch simulation” 为原则的 3D 渲染器和模拟器来加速基于深度强化学习的训练，使用单个 GPU 每秒获得超过 19,000 帧的经验，并在单个 8-GPU 机器上每秒获得最高达 72,000 帧的经验，同时维持任务的高性能并通过增加大型 mini-batches 的样本效率，在 1.5 天内使用单个 GPU 训练 PointGoal 导航代理以达到 64-GPU 集群上训练的代理的 97％准确度。

Mar, 2021

可扩展的语义非马尔科夫模拟代理用于强化学习

最近的强化学习（RL）研究在各种应用中显示出很大的潜力，然而，可伸缩性、可解释性和马尔可夫假设等问题限制了其在某些领域的适用性。本文提出了一种基于时间扩展的注释逻辑的语义代理模拟器，与两个高保真度模拟器相比，我们展示了高达三个数量级的加速，同时保持学习策略的质量，并展示了对非马尔可夫动态和即时动作的建模和利用能力，同时提供可解释的轨迹来描述代理动作的结果。

Oct, 2023

库存管理的协作多智能体强化学习

本文提出了一种基于强化学习的库存管理系统，主要解决现实供应链环境下的计算需求和奖励框架等问题，并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略，并给出了未来研究方向的讨论。

Apr, 2023

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022