CLIP-GCD: 简单的语言指导通用类别发现

May, 2023

CLIP-GCD: 简单的语言指导通用类别发现

CLIP-GCD: Simple Language Guided Generalized Category Discovery

Rabah Ouldnoughi, Chia-Wen Kuo, Zsolt Kira

TL;DR本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

Abstract

generalized category discovery (GCD) requires a model to both classify known categories and cluster unknown categories in unlabeled data. Prior methods leveraged self-supervised pre-training combined with supervised fine-tuning on the labeled data, followed by simple clustering methods

generalized category discovery multi-modal models clip semantic relationships semi-supervised clustering

发现论文，激发创造

利用多模态 CLIP 揭示广义类别的潜力

通过引入文本信息和多模态潜力的方法，在广义类别发现任务中，我们提出了一种基于文本嵌入综合器的模型，该模型生成用于未标记样本的伪文本嵌入，并通过视觉和语义信息的相互增强，超越了现有方法，在所有广义类别发现基准上取得了新的最佳效果。

Mar, 2024

训练无关 CLIP 基于适应的难以超越的基准线

对比语言 - 图像预训练（CLIP）已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能，其中包括提示学习和适配器。然而，这些方法仍然需要额外的训练时间和计算资源，对于资源有限的设备来说并不理想。因此，我们重新审视了经典算法高斯判别分析（GDA），应用它于 CLIP 的下游分类中。通过利用贝叶斯公式，高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成，以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明，我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外，我们还将我们的方法扩展到基于新类别的推理和无监督学习，再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。

Feb, 2024

文本知识的重要性：跨模态共教带来的一般化视觉类别发现

通过使用强大的视觉 - 语言模型，本文提出了一个两阶段的 TextGCD 框架，通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现，并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大的优势，尤其在 ImageNet-1k 和 CUB 上的所有精确度方面超过最佳竞争者分别为 7.7% 和 10.8%。

Mar, 2024

使用聚类分配一致性进行的广义类别发现

自动发现广义类别的开放式任务，使用半监督表示学习过程中获得的区分性嵌入，构建原始稀疏网络并使用社区检测方法同时获取聚类结果和类别数。

Oct, 2023

类别发现中无唯一代表

本文提出了一个新的通用类别发现（GCD）方法，通过使用一种合成数据集 'Clevr-4' 进行研究和评估，该数据集包含四个不同的数据分割，需要模型在有标签数据集的基础上推断出类别的层次结构，解决传统无监督聚类方法存在的问题，并在实验中展示了该方法的优越性。

Nov, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CDUL: 基于 CLIP 的无监督多标签图像分类学习

使用基于 CLIP 的无监督学习方法，通过相似性聚合、优化框架和伪标签来实现无注释的多标签图像分类。

Jul, 2023

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

通用类别发现的动态概念对比学习

本文提出了一种动态概念对比学习（DCCL）框架，该框架通过交替估计基本视觉概念和学习概念表示来有效地提高聚类准确性。实验结果表明，DCCL 在通用和细粒度视觉识别数据集上取得了新的最优表现，尤其是在细粒度方面表现良好。

Mar, 2023

学习半监督高斯混合模型以用于泛化类别发现

该论文提出了一种 EM-like 框架，基于半监督的高斯混合模型，利用渐进式的原型对比学习进行表征学习，并采用聚类分配实例，从而解决不知道类数的广义类别发现问题，并在分类和物体识别上取得最先进的性能。

May, 2023