Aug, 2023

Lowis3D: 基于语言驱动的开放世界实例级别3D场景理解

TL;DR通过使用视觉-语言(VL)基础模型,将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉-语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在3D语义、实例和全景分割任务中获得显著的改进。