RVT: 用于 3D 对象操作的机器人视图变换器
本研究提出了 RVT-2,一种多任务 3D 操纵模型,通过构架和系统层面的改进,使其在训练时快 6 倍、推理时快 2 倍,实现了在 RLBench 上的成功率从 65%提高到 82%,能够通过仅仅 10 个演示来学习需要高精度的任务,如拾取和插入插头。
Jun, 2024
通过学习条件于相机姿态和图像内容的视图融合功能,利用变压器提出端到端体积三维重建网络 VoRTX,其模型鲁棒性强,处理视角多样,能保留更多的细节信息,比现有最先进方法更出色。
Dec, 2021
提出了 3D-MVP,一种使用遮罩自编码器进行 3D 多视图预训练的新方法,通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练,评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进,同时在实际机器人平台上也取得了令人期待的结果。
Jun, 2024
本文提出了使用 Recurrent Vision Transformers 来实现基于事件相机进行低延迟目标检测的创新方法,通过使用卷积先验、本地和扩张全局自我关注,以及循环时间特征聚合等方法,在不损失性能的情况下降低了推理时间,并在 Gen1 汽车数据集上实现了 47.2% 的 mAP。
Dec, 2022
这篇论文提出了一种基于多视角变换器(MVT)的方法,将 3D 场景投影到多视角空间中,学习一种更为稳健的多模态表示形式,从而消除特定视角的依赖,并在实验中表现出比现有方法更好的性能。
Apr, 2022
使用 Perceiver Transformer 的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和 3D ConvNet 基准。
Sep, 2022
本文提出的 Manupulation 策略 Transformer Act3D,将 6DoF 关键点预测作为自适应空间计算的 3D 检测操作,取得 RLbench 操作测试中最佳效果。
Jun, 2023
基于数据增强驱动的方法,使用重新参数化的视觉 Transformer(ReVT)和多模型训练后的权重平均化,实现语义分割的域通用化,在多个基准数据集上实现了 47.3%(之前的技术:46.3%)的小型模型和 50.1%(之前的技术:47.8%)的中型模型的最新 mIoU 性能,同时需要更少的参数,并且帧速率更高,与最佳之前的技术相比,易于实施,而且在推断期间不会增加任何计算复杂度。
Aug, 2023
本研究提出了一种基于视觉反馈的精细操作任务解决方案,结合第三人称相机和机器人手腕上的自我中心相机的可视化反馈,使用 Transformers 跨视图关注机制来有效融合两个视图的信息,并将其作为强化学习策略的输入。实验结果表明,该方法相对于基线(single-view, multi-view)有明显的学习优势,并能够成功地转移到具有不稳定摄像头、无状态信息和高任务变异度的实际机器人操作任务中。
Jan, 2022
利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了 RoboUniView 方法,该方法从多个视角学习统一的视图表示,并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界,不受机器人平台摄像机参数的限制,并在 CALVIN 基准测试中获得了最先进的性能,将成功率从 88.7%提高到 96.2%。此外,该模型还表现出卓越的适应性和灵活性:它在未知摄像机参数下保持高性能,可以利用具有不同摄像机参数的多个数据集,并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。
Jun, 2024