Jul, 2023

离线多智能体强化学习中的扩散政策与保守性之外

TL;DR本文提出了一种基于扩散的离线多智能体模型(DOM2),采用轨迹数据增广方案,可以应对环境变化,达到更好的性能、泛化能力和数据效率。实验结果表明,DOM2 在多智能体环境中和 shifted environments 下都比现有算法表现更好,并拥有更强的数据效率。