CVPRApr, 2024

SUGAR: 为机器人预训练 3D 视觉表征

TL;DR通过名称为 SUGAR 的新型 3D 预训练框架,可以捕捉物体的语义、几何和功能属性,解决了处理复杂 3D 场景中的遮挡和准确定位对象的亚优缺陷;SUGAR 利用可变转换模型同时处理五个预训练任务,包括语义学习的跨模态知识蒸馏、理解几何结构的遮蔽点建模、对象功能的抓握姿势合成、3D 实例分割和杂乱场景中的指代表达接地;实验结果表明,SUGAR 的 3D 表示优于最先进的 2D 和 3D 表示。