Apr, 2024

N 代理临时团队合作

TL;DR在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法。本文提出了 N - 智能体特定团队合作算法(POAM),用于解决在评估阶段必须与动态变化的不同类型的队友进行交互和合作的智能体问题,并通过学习队友行为的表示来适应各种队友行为。在《星际争霸 II》任务的实证评估中,POAM 相对于基准方法提高了协作任务的回报,并实现了对未见过队友的分布外泛化。