CVPRMar, 2023

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

TL;DR本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。