RVT: 用于 3D 对象操作的机器人视图变换器

Jun, 2023

RVT: 用于 3D 对象操作的机器人视图变换器

RVT: Robotic View Transformer for 3D Object Manipulation

Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao...

TL;DR本研究提出 RVT，一种基于多视角变形器的三维物体操作方法，在模拟和实际环境中均表现出色，相对于现有方法，其训练速度快 36 倍，推理速度快 2.3 倍，并仅需每项任务约 10 次演示即可达到良好的效果。

Abstract

For 3d object manipulation, methods that build an explicit 3D representation perform better than those relying only on camera images. But using explicit 3D representations like voxels comes at large computing cost, adversely affecting scalability. In this work, we propose RVT, a

3d object manipulation multi-view transformer attention mechanism rlbench tasks computer vision

发现论文，激发创造

RVT-2: 从少量示范中学习精确操作

本研究提出了 RVT-2，一种多任务 3D 操纵模型，通过构架和系统层面的改进，使其在训练时快 6 倍、推理时快 2 倍，实现了在 RLBench 上的成功率从 65％提高到 82％，能够通过仅仅 10 个演示来学习需要高精度的任务，如拾取和插入插头。

Jun, 2024

使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建

通过学习条件于相机姿态和图像内容的视图融合功能，利用变压器提出端到端体积三维重建网络 VoRTX，其模型鲁棒性强，处理视角多样，能保留更多的细节信息，比现有最先进方法更出色。

Dec, 2021

3D-MVP：用于机器人操纵的三维多视角预训练

提出了 3D-MVP，一种使用遮罩自编码器进行 3D 多视图预训练的新方法，通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练，评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进，同时在实际机器人平台上也取得了令人期待的结果。

Jun, 2024

递归视觉 Transformer 用于事件相机目标检测

本文提出了使用 Recurrent Vision Transformers 来实现基于事件相机进行低延迟目标检测的创新方法，通过使用卷积先验、本地和扩张全局自我关注，以及循环时间特征聚合等方法，在不损失性能的情况下降低了推理时间，并在 Gen1 汽车数据集上实现了 47.2％的 mAP。

Dec, 2022

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

Perceiver-Actor: 用于机器人操纵的多任务 Transformer

使用 Perceiver Transformer 的行为克隆代理能够有效地学习行动，实验表明其在桌面任务上优于不受结构限制的图像转行动代理和 3D ConvNet 基准。

Sep, 2022

Act3D: 用于机器人操作的无限分辨率动作检测变压器

本文提出的 Manupulation 策略 Transformer Act3D，将 6DoF 关键点预测作为自适应空间计算的 3D 检测操作，取得 RLbench 操作测试中最佳效果。

Jun, 2023

一个重新参数化的视觉变换器（ReVT）用于领域通用的语义分割

基于数据增强驱动的方法，使用重新参数化的视觉 Transformer（ReVT）和多模型训练后的权重平均化，实现语义分割的域通用化，在多个基准数据集上实现了 47.3％（之前的技术：46.3％）的小型模型和 50.1％（之前的技术：47.8％）的中型模型的最新 mIoU 性能，同时需要更少的参数，并且帧速率更高，与最佳之前的技术相比，易于实施，而且在推断期间不会增加任何计算复杂度。

Aug, 2023

以 Transformer 桥接自我中心和第三人称视角，用于机器人操纵的深入研究

本研究提出了一种基于视觉反馈的精细操作任务解决方案，结合第三人称相机和机器人手腕上的自我中心相机的可视化反馈，使用 Transformers 跨视图关注机制来有效融合两个视图的信息，并将其作为强化学习策略的输入。实验结果表明，该方法相对于基线（single-view, multi-view）有明显的学习优势，并能够成功地转移到具有不稳定摄像头、无状态信息和高任务变异度的实际机器人操作任务中。

Jan, 2022

RoboUniView: 统一视角表征的视觉语言模型用于机器人操作

利用视觉语言模型（VLMs）进行机器人操纵的研究提出了一种新的范式，旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异，该研究提出了 RoboUniView 方法，该方法从多个视角学习统一的视图表示，并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界，不受机器人平台摄像机参数的限制，并在 CALVIN 基准测试中获得了最先进的性能，将成功率从 88.7％提高到 96.2％。此外，该模型还表现出卓越的适应性和灵活性：它在未知摄像机参数下保持高性能，可以利用具有不同摄像机参数的多个数据集，并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。

Jun, 2024