通过标准基线和评估披露离线多智体增强学习中进展的幻觉

Jun, 2024

通过标准基线和评估披露离线多智体增强学习中进展的幻觉

Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation

Claude Formanek, Callum Rhys Tilbury, Louise Beyers, Jonathan Shock, Arnu Pretorius

TL;DR离线多智能体强化学习（MARL）是一个备受期待的新兴领域，然而，当前离线MARL研究存在基准和评估协议的不一致性问题，这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究，确认了现有方法测量新算法性能的显著缺陷。其次，通过与这些前人工作的直接比较，我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言，在前人工作中的47个数据集中的35个（约占75%）中，我们达到或超越了当前号称的最优结果。令人惊讶的是，我们的基准方法通常远远优于这些更复杂的算法。最后，我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果，纠正了这些前人工作中的缺陷，并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤，结合可靠的基准和对比结果，可能会大大提高离线MARL的实证科学水平。

Abstract

offline multi-agent reinforcement learning (MARL) is an emerging field with great promise for real-world applications. Unfortunately, the current state of research in offline MARL is plagued by inconsistencies in baseli