CLIP-GCD: 简单的语言指导通用类别发现
通过引入文本信息和多模态潜力的方法,在广义类别发现任务中,我们提出了一种基于文本嵌入综合器的模型,该模型生成用于未标记样本的伪文本嵌入,并通过视觉和语义信息的相互增强,超越了现有方法,在所有广义类别发现基准上取得了新的最佳效果。
Mar, 2024
对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有限的设备来说并不理想。因此,我们重新审视了经典算法高斯判别分析(GDA),应用它于 CLIP 的下游分类中。通过利用贝叶斯公式,高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成,以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明,我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外,我们还将我们的方法扩展到基于新类别的推理和无监督学习,再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。
Feb, 2024
通过使用强大的视觉 - 语言模型,本文提出了一个两阶段的 TextGCD 框架,通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现,并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大的优势,尤其在 ImageNet-1k 和 CUB 上的所有精确度方面超过最佳竞争者分别为 7.7% 和 10.8%。
Mar, 2024
本文提出了一个新的通用类别发现(GCD)方法,通过使用一种合成数据集 'Clevr-4' 进行研究和评估,该数据集包含四个不同的数据分割,需要模型在有标签数据集的基础上推断出类别的层次结构,解决传统无监督聚类方法存在的问题,并在实验中展示了该方法的优越性。
Nov, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
本文提出了一种动态概念对比学习(DCCL)框架,该框架通过交替估计基本视觉概念和学习概念表示来有效地提高聚类准确性。实验结果表明,DCCL 在通用和细粒度视觉识别数据集上取得了新的最优表现,尤其是在细粒度方面表现良好。
Mar, 2023
该论文提出了一种 EM-like 框架,基于半监督的高斯混合模型,利用渐进式的原型对比学习进行表征学习,并采用聚类分配实例,从而解决不知道类数的广义类别发现问题,并在分类和物体识别上取得最先进的性能。
May, 2023