ICMLJul, 2022

可扩展的多智体强化学习高性能模拟

TL;DR本论文介绍了一种高性能代理基于模型的框架 ——Vogue,可以支持成千上万的互动代理的训练环境,此规模的高性能多智能体环境有望实现在复杂系统中建立灵活且健壮的策略。本研究展示了两个新开发的大规模多智能体训练环境的训练表现,并表明这些环境可以在几分钟甚至几小时的时间尺度上训练共享 RL 策略。