PECAN: 利用政策集成实现上下文感知的零-shot人工智能协同

Jan, 2023

PECAN: 利用政策集成实现上下文感知的零-shot人工智能协同

PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI Coordination

Xingzhou Lou, Jiaxian Guo, Junge Zhang, Jun Wang, Kaiqi Huang...

TL;DR该论文提出了零样本人工智能与人类协作的新方法，使用策略组合方法以提高参与者的多样性，以及上下文感知方法使自我代理能够分析和识别合作伙伴的潜在策略原语以便其可以相应地进行不同的行为。结果表明，该方法在所有场景中实现了最先进的性能。

Abstract

zero-shot human-ai coordination holds the promise of collaborating with humans without human data. Prevailing methods try to train the ego agent with a population of partners via self-play. However, this kind of method suffers from two problems: 1) The diversity of a population with fi

发现论文，激发创造

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为Fictitious Co-Play的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用FCP方法产生显著更高的学习效果与人类喜好。

Oct, 2021

零样本人工智能协同的最大熵基于人口训练

本文提出了一种通过最大熵种群训练（MEP）来训练RL系统的方法，以促进代理系统间的多样性和个体代理自身的多样性，并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中，与自我游戏PPO（SP）等方法进行比较，我们证明了MEP方法的有效性。

Dec, 2021

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

Hanabi中零样本协作的K级推理

通过同步训练所有层次的简单k级别推理适应，我们可以在Hanabi中获得具有竞争力的零射协调和特定的临时团队玩法表现，包括与类人代理机器人配对。

Jul, 2022

通过人类规正化搜索和学习，实现人类和人工智能的协同

利用针对人类的数据规范化搜索方法及行为克隆技术，开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作，该算法在 Hanabi 基准测试中表现出强大的协调性。

Oct, 2022

社会性具身重排中的自适应协调

本文介绍了一项名为 'Social Rearrangement' 的任务，其中两个机器人在模拟的多智能体环境中协调完成长期任务，并通过一种称为 'Behavior Diversity Play' 的方法实现了零样本协调，促进了多样性，并达到了比基准更高的成功率和效率。

May, 2023

解决协作不兼容问题实现零射击的人工智能协调

通过采用博弈论和图论等技术，本文提出了COLE框架，用于解决协作不匹配问题，并在在线Overcooked人工智能实验平台中验证其有效性，结果表明其优于现有方法。

Jun, 2023

使用偏好行为合作伙伴量化零样态协调能力

零-shot协调（ZSC）是一个新的挑战，主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法，包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近（BR-Prox）度量。在Overcooked环境中重新评估了强大的ZSC方法，结果显示一些最常用的布局无法区分不同ZSC方法的性能。同时，评估的ZSC方法必须产生更多多样化和高性能的训练合作伙伴。我们提出的评估流程呼吁改变如何高效评估ZSC方法，并作为人工评估的补充。

Oct, 2023

KnowPC：基于知识的编程强化学习用于零-shot协作

本研究解决了在合作AI领域中，零-shot协调（ZSC）面临的挑战，尤其是如何使智能体在未见过的环境中与新伙伴合作。提出的KnowPC方法通过可解释的程序表示智能体的策略，利用知识驱动的程序化强化学习来克服神经网络的缺乏可解释性和逻辑性的问题，显著提升了政策的可理解性和泛化能力。

Aug, 2024

从单人指导实现多机器人协作

本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法，通过借助单个人类专家的指导，让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率，证实了在人类指导下，智能体能够有效协作，且实验结果能够应用于现实世界。

Sep, 2024