零样本协调的新形式化方法与开放问题

Jun, 2021

零样本协调的新形式化方法与开放问题

A New Formalism, Method and Open Issues for Zero-Shot Coordination

Johannes Treutlein, Michael Dennis, Caspar Oesterheld, Jakob Foerster

TL;DR介绍了零射击协调（ZSC）的问题，定义了一个标签自由协调游戏（LFC），发现了其他玩法不是 LFC 问题的最佳解，引入了其他玩法的补充算法以解决此问题，同时提出了 ZSC 的另一种实现方式。

Abstract

In many coordination problems, independently reasoning humans are able to discover mutually compatible policies. In contrast, independently trained self-play policies are often mutually incompatible. zero-shot coordination (→

zero-shot coordination multi-agent reinforcement learning label-free coordination other-play with tie-breaking zsc

发现论文，激发创造

Hanabi 中零样本协作的 K 级推理

通过同步训练所有层次的简单 k 级别推理适应，我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现，包括与类人代理机器人配对。

Jul, 2022

零样本协调的 “其他 - 玩耍

本文探讨了如何通过使用 other-play 算法增强 self-play 算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

走向小样本协同：重新审视《汉尼拔》游戏中的即兴团队配合挑战

合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架，在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性，并发现在大多数情况下，顺序独立强化学习代理（IQL）与最新的零样本协同算法 Off-Belief Learning（OBL）相比，在适应性上表现相似。这一发现引发了一个有趣的研究问题：如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用，我们的实验表明，控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。

Aug, 2023

异构多智能体零样本协同进化

本文提出一种基于协同进化的方法，用于在物理世界和多智能体协作环境中解决零 - shot 协调问题，并在一个协同烹饪任务中实现了这个解决方案。

Aug, 2022

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

使用偏好行为合作伙伴量化零样态协调能力

零 - shot 协调（ZSC）是一个新的挑战，主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法，包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近（BR-Prox）度量。在 Overcooked 环境中重新评估了强大的 ZSC 方法，结果显示一些最常用的布局无法区分不同 ZSC 方法的性能。同时，评估的 ZSC 方法必须产生更多多样化和高性能的训练合作伙伴。我们提出的评估流程呼吁改变如何高效评估 ZSC 方法，并作为人工评估的补充。

Oct, 2023

零样本协同合作开放式学习框架

本文提出了 Cooperative Open-ended LEarning (COLE) 框架，通过图形论的角度构建协作游戏的开放式目标，评估和确定每种策略的协作能力，进而解决合作不兼容的问题，并且实验证明该方法在与不同级别伙伴协调时优于现有的最先进方法。

Feb, 2023

社会性具身重排中的自适应协调

本文介绍了一项名为 'Social Rearrangement' 的任务，其中两个机器人在模拟的多智能体环境中协调完成长期任务，并通过一种称为 'Behavior Diversity Play' 的方法实现了零样本协调，促进了多样性，并达到了比基准更高的成功率和效率。

May, 2023

解决协作不兼容问题实现零射击的人工智能协调

通过采用博弈论和图论等技术，本文提出了 COLE 框架，用于解决协作不匹配问题，并在在线 Overcooked 人工智能实验平台中验证其有效性，结果表明其优于现有方法。

Jun, 2023

PECAN: 利用政策集成实现上下文感知的零 - shot 人工智能协同

该论文提出了零样本人工智能与人类协作的新方法，使用策略组合方法以提高参与者的多样性，以及上下文感知方法使自我代理能够分析和识别合作伙伴的潜在策略原语以便其可以相应地进行不同的行为。结果表明，该方法在所有场景中实现了最先进的性能。

Jan, 2023