零样本协调的“其他-玩耍

Mar, 2020

"Other-Play" for Zero-Shot Coordination

Hengyuan Hu, Adam Lerer, Alex Peysakhovich, Jakob Foerster

TL;DR本文探讨了如何通过使用other-play算法增强self-play算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以Hanabi卡牌游戏为例展示了该算法的实验结果。

Abstract

We consider the problem of zero-shot coordination - constructing AI agents that can coordinate with novel partners they have not seen before (e.g. humans). Standard multi-agent reinforcement learning (MARL) metho

发现论文，激发创造

零样本协调的新形式化方法与开放问题

介绍了零射击协调（ZSC）的问题，定义了一个标签自由协调游戏（LFC），发现了其他玩法不是LFC问题的最佳解，引入了其他玩法的补充算法以解决此问题，同时提出了ZSC的另一种实现方式。

Jun, 2021

零样本人工智能协同的最大熵基于人口训练

本文提出了一种通过最大熵种群训练（MEP）来训练RL系统的方法，以促进代理系统间的多样性和个体代理自身的多样性，并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中，与自我游戏PPO（SP）等方法进行比较，我们证明了MEP方法的有效性。

Dec, 2021

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

自适应即时策略对接

本文提出了使用贝叶斯推断和Gibbs采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在Hanabi这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

Hanabi中零样本协作的K级推理

通过同步训练所有层次的简单k级别推理适应，我们可以在Hanabi中获得具有竞争力的零射协调和特定的临时团队玩法表现，包括与类人代理机器人配对。

Jul, 2022

异构多智能体零样本协同进化

本文提出一种基于协同进化的方法，用于在物理世界和多智能体协作环境中解决零-shot协调问题，并在一个协同烹饪任务中实现了这个解决方案。

Aug, 2022

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零-shot学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估Overcooked benchmark，HSP方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

走向小样本协同：重新审视《汉尼拔》游戏中的即兴团队配合挑战

合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏Hanabi的框架，在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性，并发现在大多数情况下，顺序独立强化学习代理（IQL）与最新的零样本协同算法Off-Belief Learning（OBL）相比，在适应性上表现相似。这一发现引发了一个有趣的研究问题：如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用，我们的实验表明，控制训练数据多样性和优化过程的两类超参数对Hanabi代理的适应性具有重要影响。

Aug, 2023

人工智能与人类合作的多元规范

通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法，我们的技术在多代理合作游戏中生成多样化的约定，以适应人类的约定，并在与真实用户配对时超越人类水平的性能。

Oct, 2023

强化学习中自我对弈方法的综述

本研究旨在填补自我对弈在强化学习中的应用与理论之间的空缺，提出了一个统一框架并对现有自我对弈算法进行了分类。通过展示自我对弈在不同场景中的作用，本文揭示了其实际应用的重要性，并指出开放的挑战和未来的研究方向。

Aug, 2024