通过双重去噪从 CLIP 学习稳健的 3D 表示

Jul, 2024

通过双重去噪从 CLIP 学习稳健的 3D 表示

Learning Robust 3D Representation from CLIP via Dual Denoising

Shuqing Luo, Bowen Qu, Wei Gao

TL;DR本文探讨了一个关键但鲜为人知的问题：如何从预训练的视觉语言模型（如 CLIP）中学习到稳健且良好泛化的 3D 表示。我们提出了 Dual Denoising 框架，通过将基于去噪的代理任务与新颖的特征去噪网络相结合，从 CLIP 中学习鲁棒且良好泛化的 3D 表示。实验结果显示我们的模型能够在零样本设置下有效提高 3D 学习网络的表示学习性能和对抗鲁棒性。

Abstract

In this paper, we explore a critical yet under-investigated issue: how to learn robust and well-generalized 3d representation from pre-trained vision language models such as CLIP. Previous works have demonstrated that cross-modal distillation can provide rich and useful knowledge for 3

3d representation vision language models cross-modal distillation adversarial attacks dual denoising

发现论文，激发创造

基于 Transfer CLIP 的通用图像去噪

本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络，并通过渐进特征增强策略来改善解码器的鲁棒性，实验证明该方法具有优越的泛化能力。

Mar, 2024

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

稳健的跨模态表示学习与渐进式自蒸馏

通过交叉模态对比学习以及软图像 - 文本对齐等方法，改进了 CLIP 模型，在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估，该方法在多种设置下表现均优于 CLIP，并且没有增加计算成本。此外，该方法还在自然分布偏移的鲁棒性测试中表现更好。

Apr, 2022

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

本文提出了一种新的预训练框架 DiffCLIP，其结合稳定扩散和 ControlNet，以减小视觉分支中的域间差异，并引入了一种样式提示生成模块，用于少样本任务，在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验，表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成，DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2％的零样本分类精度，这是最先进的技术水平，并且在 ModelNet10 上实现了 80.6％的零样本分类精度，这与最先进的技术水平相当。

May, 2023

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

对抗攻击下的稳健对比语言 - 图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023