May, 2023

CLIP-GCD: 简单的语言指导通用类别发现

TL;DR本文通过引入多模态模型 (CLIP),提出了一种基于文本检索的机制,通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类,该方法在多个数据集上得到了最优结果。