可推广的视觉语言模型提示调整

Oct, 2024

Generalizable Prompt Tuning for Vision-Language Models

Qian Zhang

TL;DR本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角，并最大化它们的互信息，研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外，引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明，其在特定任务性能和一般能力方面均具竞争力。

Abstract

Prompt Tuning for Vision-Language Models such as CLIP involves optimizing the text prompts used to generate image-text pairs for specific downstream tasks. While hand-crafted or template-based prompts are general

发现论文，激发创造

视觉-语言模型中零-shot泛化的测试时提示调整

本文提出一种叫做测试时提示调整 (TPT) 的方法，可在单个测试样本上实时学习适应性提示，优化提前提供的CLIP模型动态调整提示，以最小化模型预测时的不确定度，提高CLIP模型的泛化能力。实验结果表明，TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6％，并达到了使用额外培训数据的最新先进方法的性能水平。

Sep, 2022

基于贝叶斯提示学习的图像-语言模型泛化

研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题，在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。

Oct, 2022

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为Unified Prompt Tuning(UPT)的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在11个视觉数据集上进行了强有力的测试，取得了较好的few-shot learning 和domain generalization的效果。

Oct, 2022

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉-语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比，KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。

Aug, 2023

ArGue: 面向视觉语言模型的属性引导提示调整

通过引入Attribute-Guided Prompt Tuning方法，利用基于大型语言模型生成的原始视觉属性来优化视觉-语言模型，包括软提示调整、属性抽样以及负面提示，以提升其在新类别预测和超出分布泛化任务上的表现。

Nov, 2023

重新参数化的低秩提示：在0.5K参数范围内泛化视觉语言模型

通过重新参数化低秩提示（RLP），我们设计了一种新型提示，用于高效和有效地适应基于视觉和语言的模型，并显著增加了传统提示调整的平均下游准确性，仅使用0.5K的参数。

Dec, 2023

仅使用文本监督在视觉-语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在4个基准测试上进行了广泛评估。

Jan, 2024

概念引导下的提示学习进行视觉-语言模型泛化

通过概念引导提示学习的方式，CPL方法显著提高了通用化性能。

Jan, 2024

视觉语言模型泛化的不变测试时间适应

通过测试时间提示调整范式优化学习提示的方式，该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息，同时强调关键的与任务相关的视觉线索。

Mar, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024