Dec, 2023

基于视觉语义对齐的弱监督三维视觉定位

TL;DR基于大规模视觉 - 语言模型的弱监督学习方法,利用 2D 图像和 3D 点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本 - 3D 对应,实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明,3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。