大规模视频生成预训练在视觉机器人操作中的应用
基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益于机器人学习。此外,我们提出了一种用于机器人操作的视觉预训练方案,称为Vi-PRoM,它结合了自监督学习和监督学习。具体而言,前者利用对比学习从大规模无标签数据中获取潜在模式,而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在https://explore-pretrain-robot.github.io找到。
Aug, 2023
通过对15个预训练视觉模型的性能比较,发现视觉出现分割能力是ViT模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和50次演示后预测了真实世界的性能。
Nov, 2023
利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了RoboUniView方法,该方法从多个视角学习统一的视图表示,并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界,不受机器人平台摄像机参数的限制,并在CALVIN基准测试中获得了最先进的性能,将成功率从88.7%提高到96.2%。此外,该模型还表现出卓越的适应性和灵活性:它在未知摄像机参数下保持高性能,可以利用具有不同摄像机参数的多个数据集,并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。
Jun, 2024
本研究解决了机器人在复杂现实场景中实现推广学习时数据不足的问题。通过提出基于图像-文本生成模型的可语义控制的增强框架,研究展示了如何快速扩增机器人数据集并产生丰富的变化,从而提高机器人的真实场景推广能力。最显著的发现是,该方法能够在无人成本的情况下有效提升机器人学习的推广性能。
Sep, 2024
本研究针对缺乏适当模拟基准测试的问题,提出了GemBench,一个新颖的基准,用于评估视觉-语言机器人操作策略的推广能力。通过3D-LOTUS和3D-LOTUS++方法,该研究实现了在GemBench上新任务的先进性能,设立了机器人操作领域的推广新标准。
Oct, 2024
本研究提出了GR-2,一个先进的通用机器人代理,旨在解决机器人操作中的可变性和广泛适应性问题。通过对3800万个视频片段进行大规模预训练,GR-2能够在多种任务和新环境中实现97.7%的成功率,展现出卓越的多任务学习和泛化能力。此项研究为机器人技术的进一步发展和实际应用提供了重要的贡献。
Oct, 2024
本研究解决了生成模型与低级控制器之间接口的瓶颈问题,通过提出Generative Hierarchical Imitation Learning-Glue (GHIL-Glue)方法,有效过滤出不利于任务进展的子目标,从而提升低级政策对生成子目标的鲁棒性。实验表明,GHIL-Glue在多种层次模型上实现了25%的性能提升,并在CALVIN仿真基准上达到了新的最先进水平。
Oct, 2024
本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示(MCR)的框架,通过结合视觉特征和任务动态信息,显著提高了机器人操作任务的成功率。实验证明,MCR在模拟和现实任务中的性能提高超过14%和76%,展示了其在高效学习中的潜在影响。
Oct, 2024
本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示(MCR)框架,通过捕捉操作任务的视觉特征和动态信息来提高表现,实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%,并在现实世界任务中提升性能76.9%。
Oct, 2024