SUGAR: 为机器人预训练 3D 视觉表征

CVPRApr, 2024

SUGAR: 为机器人预训练 3D 视觉表征

SUGAR: Pre-training 3D Visual Representations for Robotics

Shizhe Chen, Ricardo Garcia, Ivan Laptev, Cordelia Schmid

TL;DR通过名称为 SUGAR 的新型 3D 预训练框架，可以捕捉物体的语义、几何和功能属性，解决了处理复杂 3D 场景中的遮挡和准确定位对象的亚优缺陷；SUGAR 利用可变转换模型同时处理五个预训练任务，包括语义学习的跨模态知识蒸馏、理解几何结构的遮蔽点建模、对象功能的抓握姿势合成、3D 实例分割和杂乱场景中的指代表达接地；实验结果表明，SUGAR 的 3D 表示优于最先进的 2D 和 3D 表示。

Abstract

Learning generalizable visual representations from Internet data has yielded promising results for robotics. Yet, prevailing approaches focus on pre-training 2D representations, being sub-optimal to deal with occlusions and accurately localize objects in complex 3D scenes. Meanwhile, 3D representation learning has been limited to single-object understanding.

3d pre-training object representation semantic learning affordance properties cluttered scenes

发现论文，激发创造

机器人操作的通用语义几何表现

本文提出一种名为语义几何表征（SGR）的感知模块，旨在整合 RGB 和深度相机的信息，以更好地学习机器人感知和控制的表征，实验结果表明，SGR 在单任务和多任务设置下的表现均显著优于其他方法，并具有到新语义属性的泛化能力。

Jun, 2023

SGRec3D: 自主学习的 3D 场景图通过对象级场景重建

提出了 SGRec3D，这是一种用于预先训练三维场景图预测的新方法，无需对象关系标签，可以利用大规模三维场景理解数据集进行训练。在细调期间只使用 10% 标记数据集便可优于未进行预先训练的模型。

Sep, 2023

预训练、自训练、蒸馏：三维重建超强增强的简单配方

本研究提出了一种统一的模型，用于针对数百个语义类别的单视图 3D 对象重建，并利用分割的图像集合来学习分类通用物体的 3D 形状，通过使用标准识别数据集的图像集进行评估，表明该方法使得对 150 个以上物体类别的 3D 推断成为可能。最终得到的 3D 重建模型还能够对未见物体类别的图像进行零样本推断，并且通过实验证明，增加训练类别的数量可以提高重建质量。

Apr, 2022

3D 点云强化学习效果研究

该研究通过对比 2D 与 3D 表现，研究了 3D 神经网络在可视化强化学习任务中的效能，特别关注了基于 3D 点云的设计选择，研究表明在涉及到 agent-object/object-object 关系编码时，3D 点云比 2D 图像更有效，尤其在复杂的机器人操作任务中。

Jun, 2023

基于多视图表达学习的点云预训练

本文提出了一种基于 2D network 预训练的点云 3D 预训练新方法，通过引入多视角一致性损失，可有效防止 3D 特征丢失并在 3D 检测和语义分割等任务中实现最先进的性能。

Jun, 2023

提升数据高效三维场景理解的表示学习的泛化能力

通过利用生成贝叶斯网络产生具有真实世界模式的多样化合成场景，并通过联合学习粗到精的对比学习任务和遮挡感知重建任务，我们提出了可泛化的表示学习（GRL）方法，从而为三维场景的理解提供了可传递、几何信息化的表示。在合成数据的预训练之后，我们的模型的所掌握的知识可以通过真实世界基准数据集实现无缝传递到与三维场景理解相关的两个主要下游任务，即三维物体检测和三维语义分割，并通过详尽系列的实验证明了我们方法相对于现有最新预训练方法的持续优势。

Jun, 2024

构建通用 3D 大规模感知强预训练基准

通过构建一个 CSC 框架，我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型，实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。

May, 2024

使用物体感知表达式的多物体场景视觉运动控制

本文探索运用物体感知表征学习技术进行机器人任务，自监督学习方法可降低实际世界中收集大量标记数据的成本，该研究展示物体感知表征学习技术在策略学习和物体定位预测方面显著提高了当前技术的效能和表现。

May, 2022

通过详细的 3D 物体表征实现场景理解

本文提出了一种基于 3D 可变形线框的高分辨率车辆对象表示，该表示能精细地建模单个点和面的水平，结合此表示和明确的 3D 场景模型，我们能够对场景进行更细致和准确的理解并从单个视角评估多个对象的位置与视点的单眼 3D 姿态估计。

Nov, 2014

透视变换网络：学习单视图三维物体重建，无需三维监督

从学习代理的角度探究了单视角 3D 物体重建任务，提出了一种包含透视变换定义的新型投影损失的编码器 - 解码器网络，实现了从单个 2D 图像生成 3D 体积的无监督学习，并通过实验证明了投影损失提高了 3D 对象重建的性能和泛化能力。

Dec, 2016