语言感知的视觉与语言基础模型软提示

Oct, 2022

语言感知的视觉与语言基础模型软提示

Language-Aware Soft Prompting for Vision & Language Foundation Models

Adrian Bulat, Georgios Tzimiropoulos

TL;DR本文介绍了一种软提示学习的方法，用于Vision & Language模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在11个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和CLIP的新类准确性。

Abstract

This paper is on soft prompt learning for Vision \& Language (V&L) models. Similarly to their NLP counterparts, V\&L models can be adapted to a downstream task by learning soft continuous prompts using a few training examples. Current methods learn the soft prompts by minimizing a

发现论文，激发创造

视觉语言模型的提示学习

本文介绍了如何使用CoOp, 一种基于学习来应用CLIP vision-language 模型用于下游图像识别任务的简单方法, 以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

学习生成软提示用于组合式零样本学习

本文提出了一种叫做CSP的组成式软提示技术，用于提高大规模预训练视觉-语言模型的零样本组成性能；对比已有的方法，CSP通过训练学习组件而不是固定的预设生词表，可以实现更好的预测表现。

Apr, 2022

构建强韧的图像-语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉-语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比，KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。

Aug, 2023

ArGue: 面向视觉语言模型的属性引导提示调整

通过引入Attribute-Guided Prompt Tuning方法，利用基于大型语言模型生成的原始视觉属性来优化视觉-语言模型，包括软提示调整、属性抽样以及负面提示，以提升其在新类别预测和超出分布泛化任务上的表现。

Nov, 2023

LaViP: 语言驱动的视觉提示

通过语言引导的视觉提示方法，我们使视觉语言模型的视觉编码器适应下游任务，从而提高适应性和泛化性能。

Dec, 2023

仅使用文本监督在视觉-语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在4个基准测试上进行了广泛评估。

Jan, 2024

领域泛化的软提示生成

大型预训练视觉语言模型（VLMs）在下游任务中展现出令人印象深刻的零-shot能力，但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法，通过在特定域数据上进行微调，将软提示作为学习向量。我们从生成的角度重构了提示学习框架，并提出了一种简单而高效的域泛化（DG）任务方法，即软提示生成（SPG）。在训练阶段，我们引入了每个领域的软提示标签，以融合生成模型的领域知识。在推理阶段，生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的SPG方法达到了最先进的性能。代码将很快提供。

Apr, 2024

Nemesis：视觉语言模型软提示向量的归一化

本研究针对当前视觉语言模型中软提示向量的归一化问题进行了探索，揭示了低范数效应，即在某些情况下，降低提示向量的范数可以提高模型性能，而提升范数则可能导致性能下降。通过提出Nemesis方法，系统性地归一化软提示向量，本研究为未来的软提示调优研究提供了重要的视角和指导。

Aug, 2024

视觉语言模型的混合提示学习

本文研究了传统提示学习方法在适应新任务时面临的挑战，如无法捕捉数据集中的多样性和易于过拟合。提出了一种混合软提示学习方法，通过路由模块动态选择适合每个实例的提示，从而大幅提高在少样本学习和领域泛化中的效果。该方法在11个数据集上的验证显示出明显的性能提升。

Sep, 2024