Jun, 2024

通过标准基线和评估披露离线多智体增强学习中进展的幻觉

TL;DR离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线 MARL 研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线 MARL 研究,确认了现有方法测量新算法性能的显著缺陷。其次,通过与这些前人工作的直接比较,我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言,在前人工作中的 47 个数据集中的 35 个(约占 75%)中,我们达到或超越了当前号称的最优结果。令人惊讶的是,我们的基准方法通常远远优于这些更复杂的算法。最后,我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果,纠正了这些前人工作中的缺陷,并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤,结合可靠的基准和对比结果,可能会大大提高离线 MARL 的实证科学水平。