Jan, 2024

POP-3D:基于图像的开放词汇 3D 实占预测

TL;DR我们描述了一种预测开放词汇的 3D 语义体素占用图的方法,该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构,包括 2D-3D 编码器、占用预测和 3D 语言头;开发了一种三模态自监督学习算法,利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构;并在几个开放词汇任务上定量展示了所提出模型的优势。