Mar, 2022

R3M: 机器人操作的通用视觉表示

TL;DR本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和 L1 惩罚的组合来预先训练 Ego4D 人类视频数据集的视觉表示。最终结果是一个名为 R3M 的表示,可用作下游策略学习的静态感知模块。在 12 个模拟机器人操作任务中,我们发现与从头开始训练以及与 CLIP 和 MoCo 等最先进的视觉表示相比,R3M 可将任务成功率提高 20%以上。此外,R3M 使 Franka Emika Panda 手臂仅使用 20 个演示即可在真实的、杂乱的公寓中学习一系列操作任务。