零样本协调的新形式化方法与开放问题
通过同步训练所有层次的简单 k 级别推理适应,我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现,包括与类人代理机器人配对。
Jul, 2022
本文探讨了如何通过使用 other-play 算法增强 self-play 算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。
Mar, 2020
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法 Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。
Aug, 2023
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
Jan, 2022
零 - shot 协调(ZSC)是一个新的挑战,主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法,包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近(BR-Prox)度量。在 Overcooked 环境中重新评估了强大的 ZSC 方法,结果显示一些最常用的布局无法区分不同 ZSC 方法的性能。同时,评估的 ZSC 方法必须产生更多多样化和高性能的训练合作伙伴。我们提出的评估流程呼吁改变如何高效评估 ZSC 方法,并作为人工评估的补充。
Oct, 2023
本文提出了 Cooperative Open-ended LEarning (COLE) 框架,通过图形论的角度构建协作游戏的开放式目标,评估和确定每种策略的协作能力,进而解决合作不兼容的问题,并且实验证明该方法在与不同级别伙伴协调时优于现有的最先进方法。
Feb, 2023
本文介绍了一项名为 'Social Rearrangement' 的任务,其中两个机器人在模拟的多智能体环境中协调完成长期任务,并通过一种称为 'Behavior Diversity Play' 的方法实现了零样本协调,促进了多样性,并达到了比基准更高的成功率和效率。
May, 2023
通过采用博弈论和图论等技术,本文提出了 COLE 框架,用于解决协作不匹配问题,并在在线 Overcooked 人工智能实验平台中验证其有效性,结果表明其优于现有方法。
Jun, 2023
该论文提出了零样本人工智能与人类协作的新方法,使用策略组合方法以提高参与者的多样性,以及上下文感知方法使自我代理能够分析和识别合作伙伴的潜在策略原语以便其可以相应地进行不同的行为。结果表明,该方法在所有场景中实现了最先进的性能。
Jan, 2023