缓解机器人操作中的人机领域差异问题
通过对 15 个预训练视觉模型的性能比较,发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和 50 次演示后预测了真实世界的性能。
Nov, 2023
基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益于机器人学习。此外,我们提出了一种用于机器人操作的视觉预训练方案,称为 Vi-PRoM,它结合了自监督学习和监督学习。具体而言,前者利用对比学习从大规模无标签数据中获取潜在模式,而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在 https://explore-pretrain-robot.github.io 找到。
Aug, 2023
提出了一种新颖的领域适应方法,将在大型易于获得的源数据集 (例如,合成图像) 上学习的视觉表示适应到目标实际世界领域,不需要昂贵的手工数据注释。作者使用弱对齐图像,结合分布对齐的方式来解决实际和模拟环境差异的问题,并在机器人操作任务上对其进行了评估。
Nov, 2015
人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP 和 EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。
Oct, 2023
本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和 L1 惩罚的组合来预先训练 Ego4D 人类视频数据集的视觉表示。最终结果是一个名为 R3M 的表示,可用作下游策略学习的静态感知模块。在 12 个模拟机器人操作任务中,我们发现与从头开始训练以及与 CLIP 和 MoCo 等最先进的视觉表示相比,R3M 可将任务成功率提高 20%以上。此外,R3M 使 Franka Emika Panda 手臂仅使用 20 个演示即可在真实的、杂乱的公寓中学习一系列操作任务。
Mar, 2022
早期研究旨在通过将人类动作领域中的关节位置序列转化为给定机器人能够实现且受其体现约束的动作领域,从而改进在线人机模仿技术。通过提出一个编码器 - 解码器神经网络模型进行领域转换,利用深度学习方法的泛化能力来解决这个问题。为了训练这样的模型,可以使用与机器人和人类动作相关联的配对数据,然而这样的数据在实践中非常稀少且收集费时。因此,我们转向了无配对领域转换的深度学习方法,并将其改进以实现人机模仿。
Jan, 2024
本研究旨在利用标注不足的人类视频示范来改进基于视觉的机器人操作学习数据,通过引入图像遮蔽的方法,提高眼手相机机器人操作策略的成功率达 58%。
Jul, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一 GPT 风格转换器具有显著的泛化能力。
Dec, 2023
提出了一种基于自监督学习的预训练方法,使用仅图像的人类中心数据对模型进行训练,通过学习关于 3D 和人体运动的先验知识,在一系列人体相关任务中优于现有的自监督预训练方法,并在模型基于和不基于模型的人体网格重建的精调任务上达到了最先进的性能。
Nov, 2023