CVPRJan, 2023

CLIP2Scene: 基于 CLIP 的高效场景理解

TL;DR本文介绍了一种简单而有效的框架 CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的 3D 语义分割,mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。