Apr, 2024

使用语言对任意 3D 物体进行分割

TL;DR本文介绍了一种基于语言指令的语义和几何感知的视觉语言学习框架,通过直接从 3D 点云生成语义相关的掩码,从而在 ScanNetv2、ScanNet200 和 Replica 基准测试中明显优于现有方法,且结果接近全监督对照组,尽管训练数据中缺乏类别标注。