利用视觉语言模型进行零样本分类的标签传播
本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签,并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比,在多个数据集上的绝对提升高达 11.7%(平均 3.8%),而与一些少样本提示基线相比的平均增益为 1.3%。
May, 2023
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28%,并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。
Dec, 2023
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉 - 语言预训练模型(例如 CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
本文介绍了一种使用属性传播网络(APNet)进行零样本学习的方法,其优化了用于零样本分类的属性空间,并使用图传播模型和最近邻分类器来实现更好的分类准确性。
Sep, 2020
提出了一种基于查询的知识共享范式,通过预训练的 VLP 模型从输入图像中提取关键的视觉知识,并通过有效的提示池进行鲁棒的标签嵌入,进而在零样本任务中显著提高了标签识别的性能。
Jan, 2024
在本论文中,我们提出了一种新的算法,通过在流形中优化标记数据的特征嵌入来最小化可微损失函数,从而使我们的新算法 “自适应锚标签传播” 在 1-shot 和 5-shot 设置中分别比标准标签传播算法提高了 7% 和 2%。我们在四个广泛使用的 few-shot 基准数据集(miniImageNet,tieredImageNet,CUB 和 CIFAR-FS)和两个常用的主干网络(ResNet12 和 WideResNet-28-10)上提供了实验结果。该算法的源代码可在此 https URL 找到。
Oct, 2023
通过利用预训练的视觉语言模型,以无人工注释的方式进行病理图像分类,通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。
Mar, 2024
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023
使用自然语言提示,无需额外训练即可实现视觉-语言多模态模型对低表面亮度星系和艺术品的零样本分类以及星系形态分类,在自然语言提示下,这些模型通常能够实现显著的准确度(通常在 80%以上),我们讨论了一些需要改进的领域,特别是 LLaVA-NeXT,这是一个开源模型,我们的研究结果旨在激励天文学界将视觉-语言多模态模型视为研究和教育的强大工具,并希望未来定制或优化的模型能够表现更好。
Jun, 2024