利用多模态 CLIP 揭示广义类别的潜力

Mar, 2024

利用多模态 CLIP 揭示广义类别的潜力

GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery

Enguang Wang, Zhimao Peng, Zhengyuan Xie, Xialei Liu, Ming-Ming Cheng

TL;DR通过引入文本信息和多模态潜力的方法，在广义类别发现任务中，我们提出了一种基于文本嵌入综合器的模型，该模型生成用于未标记样本的伪文本嵌入，并通过视觉和语义信息的相互增强，超越了现有方法，在所有广义类别发现基准上取得了新的最佳效果。

Abstract

Given unlabelled datasets containing both old and new categories, generalized category discovery (GCD) aims to accurately discover new classes while correctly classifying old classes, leveraging the class concepts learned from labeled samples. Current GCD methods only use a single visual moda

generalized category discovery visual modality text information text embedding synthesizer multi-modal potentials

发现论文，激发创造

CLIP-GCD: 简单的语言指导通用类别发现

本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

May, 2023

文本知识的重要性：跨模态共教带来的一般化视觉类别发现

通过使用强大的视觉 - 语言模型，本文提出了一个两阶段的 TextGCD 框架，通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现，并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大的优势，尤其在 ImageNet-1k 和 CUB 上的所有精确度方面超过最佳竞争者分别为 7.7% 和 10.8%。

Mar, 2024

多模态贺卡数据集的弱监督标注

本研究提出了一个图像 / 文本数据集 Greeting Cards Dataset (GCD)，并通过预训练模型完成了对于 GCD 数据集中抽象视觉概念的学习。同时，该数据集还可以用于生成贺卡图像。

Dec, 2022

CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型，通过引入图像数据进行训练，结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明，CgT-GAN 在各项指标上明显优于现有的最先进方法。

Aug, 2023

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像，只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识，并使用自编码器和自回归变换器将图像转换为文本标记，并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法，而且不会影响文本与图像的匹配。

Mar, 2022

通用类别发现的动态概念对比学习

本文提出了一种动态概念对比学习（DCCL）框架，该框架通过交替估计基本视觉概念和学习概念表示来有效地提高聚类准确性。实验结果表明，DCCL 在通用和细粒度视觉识别数据集上取得了新的最优表现，尤其是在细粒度方面表现良好。

Mar, 2023

通过图像适应提示调整的复合文本引导

对视觉语言模型进行复合文本引导的提示调整 (TGP-T)，通过引入文本监督和视觉特征对齐模块 (Bonder)，可以显著降低 GPU 内存占用，同时实现了卓越的性能。

Dec, 2023