CDUL 的可重现性研究：基于 CLIP 的无监督学习在多标签图像分类中的应用

May, 2024

CDUL 的可重现性研究：基于 CLIP 的无监督学习在多标签图像分类中的应用

Reproducibility Study of CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification

Manan Shah, Yash Bhalgat

TL;DR复现了论文中提到的 CDUL 方法，验证了使用 CLIP 模型初始化伪标签和梯度对齐训练方法在无监督多标签图像分类任务中的有效性。

Abstract

This report is a reproducibility study of the paper "CDUL: CLIP-Driven Unsupervised Learning for multi-label image classification" (Abdelfattah et al, ICCV 2023). Our report makes the following contributions: (1)

reproducibility study multi-label image classification clip-driven unsupervised learning aggregation strategy gradient-alignment training

发现论文，激发创造

CDUL: 基于 CLIP 的无监督多标签图像分类学习

使用基于 CLIP 的无监督学习方法，通过相似性聚合、优化框架和伪标签来实现无注释的多标签图像分类。

Jul, 2023

CUCL: 无监督连续学习的代码手册

本研究主要关注无监督连续学习（Unsupervised Continual Learning，UCL），提出了一种名为 Codebook for Unsupervised Continual Learning（CUCL）的方法，通过注入多样性和处理灾难性遗忘来提升模型性能。

Nov, 2023

超越数据不平衡的泛化：对 CLIP 进行可控研究以获取可转移的洞见

研究发现 CLIP 预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究，揭示了 CLIP 预训练的伪任务形成了一个动态分类问题，在训练中只包含部分类别，从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外，CLIP 的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高，而这些在监督学习中是无法实现的。该研究不仅揭示了 CLIP 在数据不平衡情况下的泛化机制，还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现，使得在不平衡数据上训练的模型能够在多样化的识别任务上达到 CLIP 级别的性能。

May, 2024

CLIP 解码器：使用多模态 CLIP 对齐表示进行零样本多标签分类

多标签分类的零样本学习方法，通过引入 CLIP-Decoder 的多模态表示学习，在零样本多标签分类任务中表现出前沿结果，相较于现有方法在性能上提升了 3.9％，在广义零样本多标签分类任务中提升了近 2.3％。

Jun, 2024

CLIP-GCD: 简单的语言指导通用类别发现

本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

May, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

TagCLIP：一种增强无需训练的 CLIP 开放词汇多标签分类的本地到全局框架

通过局部到全局的框架，我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能，并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。

Dec, 2023

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

基于 CLIP 的开放集视频领域自适应框架 AutoLabel

本研究提出了一种基于预训练语言和视觉模型的 open-set 无监督视频域自适应方法，并引入了 AutoLabel 来发现和生成目标专有类别的类名，通过改进的 CLIP 模型可以有效地对目标专有的类别进行识别，并提高两个域之间分享类别的对齐。

Apr, 2023

CDUL 的可重现性研究：基于 CLIP 的无监督学习 在多标签图像分类中的应用

CDUL 的可重现性研究：基于 CLIP 的无监督学习在多标签图像分类中的应用