CLIP2Point：使用图像深度预训练将 CLIP 转换为点云分类

Oct, 2022

CLIP2Point：使用图像深度预训练将 CLIP 转换为点云分类

CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training

Tianyu Huang, Bowen Dong, Yunhan Yang, Xiaoshui Huang, Rynson W.H. Lau...

TL;DR提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point，通过加强深度特征捕捉视觉和文本特征，增强深度聚合不变性，以实现将 CLIP 知识转移到 3D 视觉，并在零样本和少样本分类任务上实现了最优结果。

Abstract

pre-training across 3d vision and language remains under development because of limited training data. Recent works attempt to transfer vision-language →

3d vision pre-training clip depth maps point cloud classification

发现论文，激发创造

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

PointCLIP V2: 适应强大 3D 开放世界学习的 CLIP

本文介绍了一种名为 PointCLIP V2 的 3D 开放世界学习器，它使用对比语言 - 图像预训练（CLIP）以及大规模语言模型来在 3D 点云数据上进行零 - shot 分类、部分分割和物体检测。PointCLIP V2 通过引入现实形状投影模块和自动设计更具描述性的 3D - 语义暗示，显著超越了 PointCLIP 的性能。

Nov, 2022

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

语言能理解深度吗？

本文提出一种名为 DepthCLIP 的方法，将基于对比学习的语言 - 图像预训练（CLIP）应用于零样本单目深度估计任务中，成功地将语义上的知识迁移到了更为复杂的几何量化目标中，而无需训练，超越了现有的无监督方法，甚至接近了早期的全监督网络。

Jul, 2022

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

本文提出了一种新的预训练框架 DiffCLIP，其结合稳定扩散和 ControlNet，以减小视觉分支中的域间差异，并引入了一种样式提示生成模块，用于少样本任务，在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验，表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成，DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2％的零样本分类精度，这是最先进的技术水平，并且在 ModelNet10 上实现了 80.6％的零样本分类精度，这与最先进的技术水平相当。

May, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

CLIP 可以理解深度

通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示，本研究展示了如何通过最小的调整将视觉 - 语言基础模型（如 CLIP）的先验知识推广到学习预训练期间具有挑战性的领域，提高了单目深度估计的性能，并通过对其后续框架进行时序深度一致性和空间连续性的实验证明了所提出的方法的有效性。

Feb, 2024