基于程序的、组合通用的机器人操作
通过结合视觉操作中的语义理解与空间精度,使用基于语言的模仿学习代理CLIPort,可在训练过程中不需要显式地表示对象姿态、实例分割、内存、符号状态或句法结构的情况下,有效地解决各种语言规定的桌面任务,具有数据效率和泛化能力。
Sep, 2021
本文介绍了一种神经符号(混合)组合推理模型,以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明,该方法达到了非常高的准确性,同时可以进行少量的视觉微调,从而实现了真实场景的可转移性。
Oct, 2022
本论文介绍了一种名为DIAL的方法,利用半监督的语言标签,结合CLIP的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的60个新指令。
Nov, 2022
基于语言指令,我们提出了SAGE框架,它能够通过语义解释和实际操作的部分之间的联系实现通用的关节物体操作,通过语言指令、视觉输入和互动反馈实现对关节物体的多样化操作。
Dec, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。
Dec, 2023
通过提出一个包含15个不同操纵任务的综合基准测试,该论文引入了一个以人类语言指令为基础的家庭助理机器人感知和操作多种3D物体的重大挑战,并通过建立一个新的学习框架逐步完成操纵任务。
Mar, 2024
利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了RoboUniView方法,该方法从多个视角学习统一的视图表示,并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界,不受机器人平台摄像机参数的限制,并在CALVIN基准测试中获得了最先进的性能,将成功率从88.7%提高到96.2%。此外,该模型还表现出卓越的适应性和灵活性:它在未知摄像机参数下保持高性能,可以利用具有不同摄像机参数的多个数据集,并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。
Jun, 2024
本研究解决了机器人学习在数据、泛化和鲁棒性方面的挑战,提出了一种基于预训练视觉-语言模型的流匹配架构,旨在设计有效的通用机器人策略以应对复杂的灵巧任务。研究表明,该模型在零样本任务执行、遵循语言指令以及通过微调获得新技能方面具有显著能力,展现了其在多个机器人任务中的广泛应用潜力。
Oct, 2024
本研究聚焦于机器人学习面临的数据、概括性和鲁棒性挑战,探索特别的机器人基础模型如何克服这些障碍。提出了一种基于预训练的视觉-语言模型的新流匹配架构,能够有效执行复杂和灵活的任务。研究结果显示,该模型在无监督学习下能够立即执行多种任务,并通过微调掌握新技能,对推进通用机器人控制具有重要影响。
Oct, 2024