社会性具身重排中的自适应协调
零 - shot 协调(ZSC)是一个新的挑战,主要关注将学到的协调技能推广到未见过的合作伙伴。我们提出了一个可靠、全面且高效的评估方法,包括构建多样化的评估合作伙伴和多维度度量的最佳响应接近(BR-Prox)度量。在 Overcooked 环境中重新评估了强大的 ZSC 方法,结果显示一些最常用的布局无法区分不同 ZSC 方法的性能。同时,评估的 ZSC 方法必须产生更多多样化和高性能的训练合作伙伴。我们提出的评估流程呼吁改变如何高效评估 ZSC 方法,并作为人工评估的补充。
Oct, 2023
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法 Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。
Aug, 2023
本文提出了一个以重新排列任务为基础的体现智能 (AI Embodied) 的研究和评价框架,并描述了四个不同的仿真环境中重新排列方案的实验测试床和性能度量标准,以支持重新排列代理的训练和部署。
Nov, 2020
介绍了零射击协调(ZSC)的问题,定义了一个标签自由协调游戏(LFC),发现了其他玩法不是 LFC 问题的最佳解,引入了其他玩法的补充算法以解决此问题,同时提出了 ZSC 的另一种实现方式。
Jun, 2021
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
通过同步训练所有层次的简单 k 级别推理适应,我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现,包括与类人代理机器人配对。
Jul, 2022
本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化,当扩展真实机器人的数据采集到 100 个不同的任务时,我们发现此系统可以实现 24 个未见过的操作任务,平均成功率为 44%。
Feb, 2022
本文提出一种基于优化的框架用于重新布置室内家具,以更好地容纳人机共同活动。优化算法基于多种空间和语义相关信息,将家具重新布置以保留人类功能性需求的同时为机器人活动留出足够空间,并通过自适应模拟退火和共轭梯度演化策略解决优化问题。实验结果显示,重新布置后的场景平均提供了 14%更多的可访问空间和 30%更多的物品供机器人和人类交互。
Mar, 2023