Dec, 2023

基于视觉语义对齐的弱监督三维视觉定位

TL;DR基于大规模视觉-语言模型的弱监督学习方法,利用2D图像和3D点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本-3D对应,实现文本查询与3D目标物的关联。实验结果在ReferIt3D和ScanRefer数据集上表明,3D-VLA方法实现了与完全监督方法相当甚至更出色的效果。