Jul, 2024

合作离线多智能体强化学习中的协调失败

TL;DR离线多智体强化学习通过静态经验数据集来学习最优的多智体控制,但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题,并研究了在离线数据中联合动作在多智体策略梯度方法中的作用,提出了一种基于数据的 ' 最佳响应 ' 方法,并通过分析工具二人多项式博弈展示了该方法存在的简单但被忽视的故障模式,该故障模式可能导致离线环境中的彻底协调失败。基于这些见解,我们提出了一种缓解此类故障的方法,通过优先选择具有联合动作相似性的样本来进行策略学习,并在详细实验中展示了其有效性。然而,我们认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域,可以与其他有效方法(例如评论家和策略规则化)相结合。重要的是,我们的工作展示了从简化、可追踪的游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。本项目提供一个交互式笔记本,几乎可以在浏览器中复现出我们的所有结果。