RVT-2: 从少量示范中学习精确操作

Jun, 2024

RVT-2: Learning Precise Manipulation from Few Demonstrations

Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao...

TL;DR本研究提出了 RVT-2，一种多任务 3D 操纵模型，通过构架和系统层面的改进，使其在训练时快 6 倍、推理时快 2 倍，实现了在 RLBench 上的成功率从 65％提高到 82％，能够通过仅仅 10 个演示来学习需要高精度的任务，如拾取和插入插头。

Abstract

In this work, we study how to build a robotic system that can solve multiple 3d manipulation tasks given language instructions. To be usef

robotic system 3d manipulation tasks language instructions learning new tasks rvt-2

发现论文，激发创造

RVT: 用于 3D 对象操作的机器人视图变换器

本研究提出 RVT，一种基于多视角变形器的三维物体操作方法，在模拟和实际环境中均表现出色，相对于现有方法，其训练速度快 36 倍，推理速度快 2.3 倍，并仅需每项任务约 10 次演示即可达到良好的效果。

Jun, 2023

基于端到端演示学习的基于视觉的廉价机器人多任务操作

以多任务学习为基础，提出一种通过演示学习从而训练低成本机械臂控制器，以便完成数个拾取放置任务及非预抓取式操控操作的技术，使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器，参数在任务之间共享；同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明，可以通过行为克隆直接从原始图像中学习复杂的操纵任务，例如拾起毛巾、擦拭物体并将毛巾放回原位等，权重共享和基于重构的正则化大大提高了泛化性和鲁棒性，同时同时训练多个任务能够增加所有任务的成功率。

Jul, 2017

MoDem-V2: 用于真实世界机器人操作的视觉 - 动作世界模型

本研究通过模型强化学习、演示增强的方法，构建了一个能够直接在真实世界中学习联系丰富的灵巧操纵技能的系统 MoDem-V2，在模拟和实际环境中进行了实证研究，为直接在真实世界中进行演示增强的视觉模型强化学习提供了成功的案例。

Sep, 2023

R3M: 机器人操作的通用视觉表示

本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和 L1 惩罚的组合来预先训练 Ego4D 人类视频数据集的视觉表示。最终结果是一个名为 R3M 的表示，可用作下游策略学习的静态感知模块。在 12 个模拟机器人操作任务中，我们发现与从头开始训练以及与 CLIP 和 MoCo 等最先进的视觉表示相比，R3M 可将任务成功率提高 20％以上。此外，R3M 使 Franka Emika Panda 手臂仅使用 20 个演示即可在真实的、杂乱的公寓中学习一系列操作任务。

Mar, 2022

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP 和 EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

主动任务随机化：提出可行且新颖的任务以学习序列操作的视觉动作技能

本研究提出了主动任务随机化（ATR）的方法，通过自动创建合理而新颖的任务，学习了一种适用于顺序操作的视觉运动技能，证明了这种方法比基线方法效果更好。

Nov, 2022

Ag2Manip：利用与代理人无关的视觉和行为表示学习新的操作技能

Autonomous robotic systems capable of learning manipulation tasks can be transformed through Agent-Agnostic representations for Manipulation (Ag2Manip), which overcomes domain gaps, enhances generalizability, and achieves significant improvements in performance.

Apr, 2024

RREx-BoT：用技巧袋处理远程代指表达式

该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位；通过实证研究，该研究表明该方法优于以往的同类工作并适用于实际机器人平台。

Jan, 2023

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022