零射击物种识别中的科学名称提示
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法,并发现了 CLIP 的一种新能力,通过简单地在物体周围画一个红圈,即可引导模型的注意力,同时保留全局信息。通过这种简单的方法,在零样本引用表达理解中实现了最先进的效果,并在关键点定位任务中取得了强大的性能。最后,我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。
Apr, 2023
我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。
Jul, 2023
视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。
Jan, 2024
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
通过学习图像分类的一系列提示信息,我们证明了与仅仅依赖一个可训练提示相比,学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果,在 11 个不同基准测试中显示了我们方法的能力。
Jul, 2023