DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

May, 2023

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification

Sitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu

TL;DR本文提出了一种新的预训练框架 DiffCLIP，其结合稳定扩散和 ControlNet，以减小视觉分支中的域间差异，并引入了一种样式提示生成模块，用于少样本任务，在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验，表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成，DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2％的零样本分类精度，这是最先进的技术水平，并且在 ModelNet10 上实现了 80.6％的零样本分类精度，这与最先进的技术水平相当。

Abstract

Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the clip model has achieved impressive results in image classification, object detection, and sema

pre-trained models clip diffclip 3d understanding zero-shot classification

发现论文，激发创造

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

CLIP 模型暗中是一种图像到提示的转换器

本文提出的方法，可以将图片转化为文本提示，从而解决了基于文本提示生成图片时难以整合隐含信息的问题。此方法可以简单灵活地处理各种任务，如图像变化和图像编辑。

May, 2023

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

PointCLIP V2: 适应强大 3D 开放世界学习的 CLIP

本文介绍了一种名为 PointCLIP V2 的 3D 开放世界学习器，它使用对比语言 - 图像预训练（CLIP）以及大规模语言模型来在 3D 点云数据上进行零 - shot 分类、部分分割和物体检测。PointCLIP V2 通过引入现实形状投影模块和自动设计更具描述性的 3D - 语义暗示，显著超越了 PointCLIP 的性能。

Nov, 2022

CLIP2Point：使用图像深度预训练将 CLIP 转换为点云分类

提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point，通过加强深度特征捕捉视觉和文本特征，增强深度聚合不变性，以实现将 CLIP 知识转移到 3D 视觉，并在零样本和少样本分类任务上实现了最优结果。

Oct, 2022

FreeSeg-Diff：基于扩散模型的无需训练的开放词汇分割

该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法，通过结合不同的小型基础模型，利用扩散模型生成的特征，以及基于 CLIP 模型进行开放性词汇处理，实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。

Mar, 2024

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

通过少样本 CLIP 辅助扩散生成来识别和减轻模型失效

这项研究通过结合大型语言模型（ChatGPT）和视觉语言深度模型（CLIP），提出了一种利用生成文本描述模型失效模式的端到端框架，以提高对稀有背景等失败情景的性能。通过生成合成数据，以此学习模型的不足，并在不同数据类别的罕见背景上增强性能，该方法在多个模型和数据集上实现了显著的准确度提升（约 21%）。

Dec, 2023

Diff-OP3D：连接 2D 扩散以进行 Open Pose 3D 零样本分类

通过在 3D 视觉领域运用 Contrastive Language-Image Pre-training (CLIP) 方法，本论文提出了一个更具挑战性的 3D 开放姿态零样本分类基准，并通过设计一个简洁的角度优化机制以及将 2D 预训练扩散模型应用于 3D 零样本分类，成功提高了模型性能，验证了扩散方法在 3D 零样本任务中的有效性。

Dec, 2023