社会性具身重排中的自适应协调

May, 2023

Adaptive Coordination in Social Embodied Rearrangement

Andrew Szot, Unnat Jain, Dhruv Batra, Zsolt Kira, Ruta Desai...

TL;DR本文介绍了一项名为 'Social Rearrangement' 的任务，其中两个机器人在模拟的多智能体环境中协调完成长期任务，并通过一种称为 'Behavior Diversity Play' 的方法实现了零样本协调，促进了多样性，并达到了比基准更高的成功率和效率。

Abstract

We present the task of "social rearrangement", consisting of cooperative everyday tasks like setting up the dinner table, tidying a house or unpacking groceries in a simulated multi-agent environment. In

social rearrangement multi-agent environment zero-shot coordination behavior diversity play adaptive agents

发现论文，激发创造

使用偏好行为合作伙伴量化零样态协调能力

零 - shot 协调（ZSC）是一个新的挑战，主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法，包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近（BR-Prox）度量。在 Overcooked 环境中重新评估了强大的 ZSC 方法，结果显示一些最常用的布局无法区分不同 ZSC 方法的性能。同时，评估的 ZSC 方法必须产生更多多样化和高性能的训练合作伙伴。我们提出的评估流程呼吁改变如何高效评估 ZSC 方法，并作为人工评估的补充。

Oct, 2023

异构多智能体零样本协同进化

本文提出一种基于协同进化的方法，用于在物理世界和多智能体协作环境中解决零 - shot 协调问题，并在一个协同烹饪任务中实现了这个解决方案。

Aug, 2022

走向小样本协同：重新审视《汉尼拔》游戏中的即兴团队配合挑战

合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架，在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性，并发现在大多数情况下，顺序独立强化学习代理（IQL）与最新的零样本协同算法 Off-Belief Learning（OBL）相比，在适应性上表现相似。这一发现引发了一个有趣的研究问题：如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用，我们的实验表明，控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。

Aug, 2023

重新排列：具身人工智能面临的挑战

本文提出了一个以重新排列任务为基础的体现智能 (AI Embodied) 的研究和评价框架，并描述了四个不同的仿真环境中重新排列方案的实验测试床和性能度量标准，以支持重新排列代理的训练和部署。

Nov, 2020

零样本协调的新形式化方法与开放问题

介绍了零射击协调（ZSC）的问题，定义了一个标签自由协调游戏（LFC），发现了其他玩法不是 LFC 问题的最佳解，引入了其他玩法的补充算法以解决此问题，同时提出了 ZSC 的另一种实现方式。

Jun, 2021

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

视觉房间重组

一项围绕着域中物理实体与环境互动的任务 - 室内重新配置的新数据集 RoomR 并结合实验展示现有的 Embodied AI 技术在此类任务方面性能仍有提升空间。

Mar, 2021

Hanabi 中零样本协作的 K 级推理

通过同步训练所有层次的简单 k 级别推理适应，我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现，包括与类人代理机器人配对。

Jul, 2022

BC-Z：利用机器人模仿学习实现无需先学习任务的泛化

本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化，当扩展真实机器人的数据采集到 100 个不同的任务时，我们发现此系统可以实现 24 个未见过的操作任务，平均成功率为 44%。

Feb, 2022

室内场景的人机协同活动重新排列

本文提出一种基于优化的框架用于重新布置室内家具，以更好地容纳人机共同活动。优化算法基于多种空间和语义相关信息，将家具重新布置以保留人类功能性需求的同时为机器人活动留出足够空间，并通过自适应模拟退火和共轭梯度演化策略解决优化问题。实验结果显示，重新布置后的场景平均提供了 14％更多的可访问空间和 30％更多的物品供机器人和人类交互。

Mar, 2023