May, 2022

可伸缩的多智能体模型基强化学习

TL;DR本文提出了一种名为 MAMBA 的新方法,通过利用基于模型的强化学习(MBRL)进一步利用合作环境中的集中式训练,从而使代理之间的通信足以在执行阶段维持每个代理的世界模型,而虚拟推演可用于培训,从而通过减少与环境的互动次数,以与 Model-Free 的现有方法相比,在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。