- 学习翻译:合作语言习得的紧急交流预训练
在合作语言习得问题(CLAP)中,我们提出并比较了两种方法来解决 CLAP 问题:模仿学习(IL)和基于新生通信的预训练和翻译学习(ECTL),前者是通过自我对弈与 EC 模型训练,然后从数据中学习将新生协议翻译为目标社区协议。
- 使用偏好行为合作伙伴量化零样态协调能力
零 - shot 协调(ZSC)是一个新的挑战,主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法,包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近(BR-Prox)度量。在 Overcooked - 走向小样本协同:重新审视《汉尼拔》游戏中的即兴团队配合挑战
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新 - 社会性具身重排中的自适应协调
本文介绍了一项名为 'Social Rearrangement' 的任务,其中两个机器人在模拟的多智能体环境中协调完成长期任务,并通过一种称为 'Behavior Diversity Play' 的方法实现了零样本协调,促进了多样性,并达到 - 零样本协同合作开放式学习框架
本文提出了 Cooperative Open-ended LEarning (COLE) 框架,通过图形论的角度构建协作游戏的开放式目标,评估和确定每种策略的协作能力,进而解决合作不兼容的问题,并且实验证明该方法在与不同级别伙伴协调时优于现 - 异构多智能体零样本协同进化
本文提出一种基于协同进化的方法,用于在物理世界和多智能体协作环境中解决零 - shot 协调问题,并在一个协同烹饪任务中实现了这个解决方案。
- Hanabi 中零样本协作的 K 级推理
通过同步训练所有层次的简单 k 级别推理适应,我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现,包括与类人代理机器人配对。
- 使用动作特征学习与人类协同工作
探究网络结构对学习算法利用语义关系的倾向性,发现基于注意力机制构建的网络结构在零样本协调任务中具有更好的归纳偏好,并经过精细的评估和场景分析,证明了这种策略是可解释的, 并且这样的智能体在没有训练任何人类数据的情况下就能够与人类协调一致。
- Any-Play: 零样本协同的内在增强
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
- 零样本协调的新形式化方法与开放问题
介绍了零射击协调(ZSC)的问题,定义了一个标签自由协调游戏(LFC),发现了其他玩法不是 LFC 问题的最佳解,引入了其他玩法的补充算法以解决此问题,同时提出了 ZSC 的另一种实现方式。
- 离线信任学习
该研究提出了一种名为 off-belief learning(OBL)的方法,通过多层次认知推理来解决基于自习的 Dec-POMDPs(分布式部分可观测马尔科夫决策过程)在测试阶段无法适应人类行为模式的问题,并在 Hanabi 基准测试中展 - ICML作为终身学习现实场景的持续协调
本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台,研究了最新的多智能体强化学习算法,对限制的内存和计算权衡性能以及对超量训练预测的影响,证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。
- 零样本协调的 “其他 - 玩耍
本文探讨了如何通过使用 other-play 算法增强 self-play 算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。