N 代理临时团队合作

Apr, 2024

N-Agent Ad Hoc Teamwork

Caroline Wang, Arrasy Rahman, Ishan Durugkar, Elad Liebman, Peter Stone

TL;DR在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景，在完全合作的多智能体强化学习中，学习算法控制着场景中的所有智能体，而在特定团队合作中，学习算法通常只控制场景中的单个智能体。然而，在现实世界中，许多合作场景要求更灵活的学习方法。本文提出了 N - 智能体特定团队合作算法（POAM），用于解决在评估阶段必须与动态变化的不同类型的队友进行交互和合作的智能体问题，并通过学习队友行为的表示来适应各种队友行为。在《星际争霸 II》任务的实证评估中，POAM 相对于基准方法提高了协作任务的回报，并实现了对未见过队友的分布外泛化。

Abstract

Current approaches to learning cooperative behaviors in multi-agent settings assume relatively restrictive settings. In standard fully cooperative multi-agent reinforcement learning, the learning algorithm contro

cooperative behaviors multi-agent settings ad hoc teamwork autonomous agents policy optimization with agent modelling

发现论文，激发创造

基于图形策略学习的开放式即席团队合作

本文提出建立一个自主代理，该代理可以在没有先前的协调机制的情况下快速适应以与队友合作的挑战性问题，包括联合培训，该解决方案基于图神经网络学习代理模型和不同团队组成下的联合行动价值模型，并提出了新的行动价值计算方法，经实验证明，该方法成功地模拟了其他代理对学习器的影响，导致了可以稳健地适应动态团队组成并显着优于若干替代方法的策略。

Jun, 2020

基于图形策略学习的开放式即兴团队合作通用学习框架

本文研究了开放式临时团队合作的问题，通过使用图神经网络架构的强化学习方法，在完全可观测和部分可观测的情况下开发了一类解决方案，其中包括对 latant environment states 和 team composition 的支持，以获得最优策略。实验结果表明我们的方法能有效地学习到团队成员行为的影响，以及在部分可观测的环境中推断环境的固有状态。

Oct, 2022

基于知识的局部可观察条件下的 Ad Hoc 团队合作中的推理和学习

采用基于非单调逻辑推理以及少量有限数据所学的其他代理行为预测模型的架构，通过支持在线选择、适应和学习模型以及在部分可观测性和有限通信存在下与队友协作来解决无先协调时代理与队友协作问题，实验证明该模型的性能在简单和复杂情况下都优于或与最先进的数据驱动基线相当，特别是在有限的训练数据、部分可观测性和团队组成的变化存在下。

Jun, 2023

合作博弈理论下的开放式即兴团队合作

建立一个从合作博弈理论的视角解释图神经网络在图基策略学习中使用的联合 Q 值表示法，并基于该理论提出了一种新的算法来补充 GPL 中被忽视但有助于学习的关键特征。通过实验证明了该算法在动态团队构成中与 GPL 的性能比较的正确性。

Feb, 2024

基于知识和数据的异构团队合作推理和学习

本研究提出了一种应用于团队协作的体系结构，通过结合基于知识的和基于数据驱动的推理和学习，能够实现协作对象的行为预测、适应性、透明性和更好的性能。

Aug, 2022

合作行动：探索阿瓦隆游戏中的语言代理用于即时团队合作

我们的研究关注于自然语言驱动的环境中的多代理协作问题，通过对 LLM 代理的研究，我们发现了 LLM 代理在团队协作中的潜力，并指出了与交流中的幻觉相关的问题。为了解决这个问题，我们开发了 CodeAct，一种具备增强记忆和代码驱动推理功能的通用代理，使其能够再利用部分信息以快速适应新团队成员。

Dec, 2023

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

一种多智能体系统中针对临时协调的博弈论模型和最佳应答学习方法

本研究利用随机贝叶斯博弈理论，提出了 Harsanyi-Bellman Ad Hoc Coordination (HBA) 解决协调问题的方法，实验证明其在多智能体系统的 logistics 领域和人机交互中都具有高效性和灵活性。

Jun, 2015

暗中结交：不完全可观测下的临时团队合作

该论文提出了一种关于部分可观测性的临时小组合作模式的正式定义，并提出了一种基于模型的首要方法，仅依赖先前知识和对环境的部分观察以执行临时小组合作。通过我们在 11 个领域的 70 个部分可观测马尔可夫决策过程的实验结果表明，我们的方法不仅能有效地帮助未知队友解决未知任务，而且在更具挑战性的问题上表现出强大的扩展性。

Sep, 2023

多智能体学习中团队合作的益处探究

本文提出了一种基于组织心理学和早期人工智能团队工作的新型强化学习智能体多智能体团队模型，验证结果表明，尽管有不合作的动机，代理分成团队后仍然能发展出合作的政策，能在团队内更好地协调和学习相应角色，并比所有代理利益一致时获得更高的回报。

May, 2022