Aug, 2023

合作智能体的政策多样性

TL;DR标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而,在不同的合作方式中可能存在多种选择,这往往极大地增加了领域专家的任务复杂性。因此,我们提出了一种名为Moment-Matching Policy Diversity的方法,该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略。理论上,我们证明了该方法是通过使用最大均值差异来实现约束优化问题的简单方式。我们的方法的有效性在一个具有挑战性的基于团队的射击游戏中得到了验证。