Jan, 2023
CLIP2Scene: 基于CLIP的高效场景理解
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
TL;DR本文介绍了一种简单而有效的框架CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的3D语义分割,mIoU在nuScenes和ScanNet数据集上分别达到了20.8%和25.08%。