May, 2023

基于基础模型的3D开放词汇分割

TL;DR本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从2D特征中提取出3D分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从2D图像和文本图像对中学到。