Mar, 2022

R3M: 机器人操作的通用视觉表示

TL;DR本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和L1惩罚的组合来预先训练Ego4D人类视频数据集的视觉表示。最终结果是一个名为R3M的表示,可用作下游策略学习的静态感知模块。在12个模拟机器人操作任务中,我们发现与从头开始训练以及与CLIP和MoCo等最先进的视觉表示相比,R3M可将任务成功率提高20%以上。此外,R3M使Franka Emika Panda手臂仅使用20个演示即可在真实的、杂乱的公寓中学习一系列操作任务。