CDUL: 基于 CLIP 的无监督多标签图像分类学习

ICCVJul, 2023

CDUL: 基于 CLIP 的无监督多标签图像分类学习

CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification

Rabab Abdelfattah, Qing Guo, Xiaoguang Li, Xiaofeng Wang, Song Wang

TL;DR使用基于 CLIP 的无监督学习方法，通过相似性聚合、优化框架和伪标签来实现无注释的多标签图像分类。

Abstract

This paper presents a clip-based unsupervised learning method for annotation-free multi-label image classification, including three stages: initialization, training, and inference. At the initialization stage, we

clip-based unsupervised learning multi-label image classification similarity aggregation optimization framework pseudo labels

发现论文，激发创造

CDUL 的可重现性研究：基于 CLIP 的无监督学习在多标签图像分类中的应用

复现了论文中提到的 CDUL 方法，验证了使用 CLIP 模型初始化伪标签和梯度对齐训练方法在无监督多标签图像分类任务中的有效性。

May, 2024

TagCLIP：一种增强无需训练的 CLIP 开放词汇多标签分类的本地到全局框架

通过局部到全局的框架，我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能，并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。

Dec, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

使用 CLIP 的增量目标检测

通过使用 CLIP 等语言 - 视觉模型生成不同类别集合的文本特征嵌入来改善特征空间，用广义类别替换早期学习阶段中的不可用新类别，从而模拟实际增量情景，并使用 CLIP 图像编码器识别提议中的潜在对象并对其进行分类，通过修改提议的背景标签为已知类别并将框添加到训练集来缓解数据模糊性问题，我们在 PASCAL VOC 2007 数据集上评估了我们的方法，在各种增量学习设置中，我们的方法优于最先进的方法，特别是对于新的类别。

Oct, 2023

CLIP-GCD: 简单的语言指导通用类别发现

本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

May, 2023

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021