R3M: 机器人操作的通用视觉表示

Mar, 2022

R3M: A Universal Visual Representation for Robot Manipulation

Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta

TL;DR本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和L1惩罚的组合来预先训练Ego4D人类视频数据集的视觉表示。最终结果是一个名为R3M的表示，可用作下游策略学习的静态感知模块。在12个模拟机器人操作任务中，我们发现与从头开始训练以及与CLIP和MoCo等最先进的视觉表示相比，R3M可将任务成功率提高20％以上。此外，R3M使Franka Emika Panda手臂仅使用20个演示即可在真实的、杂乱的公寓中学习一系列操作任务。

Abstract

We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a →

发现论文，激发创造

以Transformer桥接自我中心和第三人称视角，用于机器人操纵的深入研究

本研究提出了一种基于视觉反馈的精细操作任务解决方案，结合第三人称相机和机器人手腕上的自我中心相机的可视化反馈，使用Transformers跨视图关注机制来有效融合两个视图的信息，并将其作为强化学习策略的输入。实验结果表明，该方法相对于基线（single-view, multi-view）有明显的学习优势，并能够成功地转移到具有不稳定摄像头、无状态信息和高任务变异度的实际机器人操作任务中。

Jan, 2022

探索机器人操纵的视觉预训练：数据集、模型与方法

基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展，展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度（预训练数据集、模型架构和训练方法）深入研究了视觉预训练策略对机器人操作任务的影响，并提供了几个重要的实验发现，有益于机器人学习。此外，我们提出了一种用于机器人操作的视觉预训练方案，称为Vi-PRoM，它结合了自监督学习和监督学习。具体而言，前者利用对比学习从大规模无标签数据中获取潜在模式，而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在https://explore-pretrain-robot.github.io找到。

Aug, 2023

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP和EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

Robo360：一种三维全方位多材料机器人操作数据集

Robo360是一个数据集，具有密集的视角覆盖，可实现高质量的3D神经表示学习，包含多样的物体和各种物理光学属性，促进各种物体操作和物理世界建模任务的研究。通过使用现有的动态NeRF验证我们数据集的有效性，并评估其在学习多视角策略方面的潜力。我们希望Robo360能在理解3D物理世界和机器人控制交叉领域开辟新的研究方向。

Dec, 2023

预训练视觉表示对稳健操控的成功因素

通过对15个预训练视觉模型的性能比较，发现视觉出现分割能力是ViT模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后，分割分数在离线训练和50次演示后预测了真实世界的性能。

Nov, 2023

通过观察学习：机器人操作的基于视频的学习方法综述

机器人通过观察大规模人类视频学习可以增强对机器人操纵的泛化性和样本效率。

Feb, 2024

缓解机器人操作中的人机领域差异问题

利用人机视频数据进行对齐来适应预先训练模型到机器人领域，在多个任务中实现了显著的成功率提升。

Jun, 2024

RoboUniView: 统一视角表征的视觉语言模型用于机器人操作

利用视觉语言模型（VLMs）进行机器人操纵的研究提出了一种新的范式，旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异，该研究提出了RoboUniView方法，该方法从多个视角学习统一的视图表示，并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界，不受机器人平台摄像机参数的限制，并在CALVIN基准测试中获得了最先进的性能，将成功率从88.7％提高到96.2％。此外，该模型还表现出卓越的适应性和灵活性：它在未知摄像机参数下保持高性能，可以利用具有不同摄像机参数的多个数据集，并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。

Jun, 2024

机器人预训练机器人：基于大规模机器人数据集的操作中心化机器人表示

本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示（MCR）的框架，通过结合视觉特征和任务动态信息，显著提高了机器人操作任务的成功率。实验证明，MCR在模拟和现实任务中的性能提高超过14%和76%，展示了其在高效学习中的潜在影响。

Oct, 2024

机器人预训练机器人：基于大规模机器人数据集的操作中心机器人表示

本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示（MCR）框架，通过捕捉操作任务的视觉特征和动态信息来提高表现，实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%，并在现实世界任务中提升性能76.9%。

Oct, 2024