Jan, 2024

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

TL;DR我们提出了一种新方法,通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题,并提出了两个新的损失函数:物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明,我们的方法显著优于强基准模型。