零射击物种识别中的科学名称提示

EMNLPOct, 2023

零射击物种识别中的科学名称提示

Prompting Scientific Names for Zero-Shot Species Recognition

Shubham Parashar, Zhiqiu Lin, Yanan Li, Shu Kong

TL;DR使用视觉 - 语言模型 (CLIP) 进行零样本识别的研究，通过将科学名称翻译为常用的英文名称，作为提示语可以在精细物种识别数据集上取得 2 到 5 倍的准确率提高。

Abstract

Trained on web-scale image-text pairs, vision-language models (VLMs) such as clip can recognize images of common objects in a zero-shot fashion. However, it is underexplored how to use →

vision-language models zero-shot recognition clip scientific names fine-grained species recognition

发现论文，激发创造

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

CLIP 对红色圆圈有何了解？用于 VLM 的视觉提示工程

本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法，并发现了 CLIP 的一种新能力，通过简单地在物体周围画一个红圈，即可引导模型的注意力，同时保留全局信息。通过这种简单的方法，在零样本引用表达理解中实现了最先进的效果，并在关键点定位任务中取得了强大的性能。最后，我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。

Apr, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

ECO: 基于集成上下文优化的视觉语言模型

通过学习图像分类的一系列提示信息，我们证明了与仅仅依赖一个可训练提示相比，学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果，在 11 个不同基准测试中显示了我们方法的能力。

Jul, 2023