预训练视觉表示对稳健操控的成功因素
使用迁移学习框架,通过对视觉网络和物体操作网络进行预训练和微调,成功地实现了零经验机器人对物体的拾取任务,且只需少量的机器人经验即可获得更好的效果。
Jul, 2021
本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和L1惩罚的组合来预先训练Ego4D人类视频数据集的视觉表示。最终结果是一个名为R3M的表示,可用作下游策略学习的静态感知模块。在12个模拟机器人操作任务中,我们发现与从头开始训练以及与CLIP和MoCo等最先进的视觉表示相比,R3M可将任务成功率提高20%以上。此外,R3M使Franka Emika Panda手臂仅使用20个演示即可在真实的、杂乱的公寓中学习一系列操作任务。
Mar, 2022
本文提出“无损调适”方案,以解决fine-tuning过程对预训练模型通用性的破坏,实验证明此方案在各种任务和模型(ViTs,NFNets和ResNets)上表现良好。
Apr, 2023
模仿学习中泛化难题的困难源自于视觉机器人操作中的因素变化,作者研究了模拟仿真和实际机器人任务中不同因素的泛化难度,并设计了一个新的基准测试用来评估泛化效果。
Jul, 2023
基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益于机器人学习。此外,我们提出了一种用于机器人操作的视觉预训练方案,称为Vi-PRoM,它结合了自监督学习和监督学习。具体而言,前者利用对比学习从大规模无标签数据中获取潜在模式,而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在https://explore-pretrain-robot.github.io找到。
Aug, 2023
大规模实证研究表明预训练视觉表示(PVRs)的使用对训练执行现实任务的下游策略非常有用,尤其在操作和室内导航任务中表现出明显的性能优势。
Oct, 2023
通过对机器人的预训练数据集进行集中分析,我们发现常规视觉数据集对于视觉-运动表示学习是竞争力强的选择,此外,预训练数据集的图像分布比其规模更为重要,同时简单的正规化策略可以显著改善真实世界策略学习。
Oct, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。
Dec, 2023
本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示(MCR)的框架,通过结合视觉特征和任务动态信息,显著提高了机器人操作任务的成功率。实验证明,MCR在模拟和现实任务中的性能提高超过14%和76%,展示了其在高效学习中的潜在影响。
Oct, 2024
本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示(MCR)框架,通过捕捉操作任务的视觉特征和动态信息来提高表现,实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%,并在现实世界任务中提升性能76.9%。
Oct, 2024