TL;DR本文介绍了一种基于语言指令的语义和几何感知的视觉语言学习框架,通过直接从 3D 点云生成语义相关的掩码,从而在 ScanNetv2、ScanNet200 和 Replica 基准测试中明显优于现有方法,且结果接近全监督对照组,尽管训练数据中缺乏类别标注。
Abstract
In this paper, we investigate open-vocabulary 3d instance segmentation
(OV-3DIS) with free-form language instructions. Earlier works that rely on only
annotated base categories for training suffer from limited ge
OV-SAM3D 是一个通用框架,用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解,通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表,结合超点和分割掩模生成最终的 3D 实例,经过对 ScanNet200 和 nuScenes 数据集的实证评估,我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。