Apr, 2023

RegionPLC:区域点 - 语言对比学习用于开放世界 3D 场景理解

TL;DR本文提出了一种开放式 3D 场景理解模型 ——RegionPLC,并通过对模型进行训练,使其具有开放词汇识别能力。采用密集视觉提示来引导从 2D 基本模型中提取区域级视觉语言知识,通过指针鉴别式对比学习,进一步使其实现从标题中对密集场景进行理解,最终在 ScanNet、ScanNet200 和 nuScenes 数据集上进行了详尽实验,实现的结果较之前的 3D 开放式场景理解方法有显著提升。