改进提示调整中的文本语义是否可以提高VLM的泛化能力？

May, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力？

Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian

TL;DR通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

Abstract

Going beyond mere fine-tuning of vision-language models (VLMs), learnable prompt tuning has emerged as a promising, resource-efficient alt

发现论文，激发创造

提示类别探讨弱监督语义分割中的提示类别学习的力量

本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略，在弱监督语义分割（WSSS）问题上实现最先进的性能，并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。

Jun, 2023

面向视觉-语言模型的分布感知提示调整

通过学习大规模数据的知识，预训练的视觉-语言模型（VLMs）在各种下游任务中表现出色。本文提出了分布感知的提示微调（DAPT），通过对齐两种模态之间的特征空间，并对每种模态的嵌入进行良好排列，显著改善了模型的泛化能力。

Sep, 2023

双对齐下的上下文感知视觉-语言模型提示调优

利用双重对齐提示调整(DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023

语言模型作为视觉-语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

ArGue: 面向视觉语言模型的属性引导提示调整

通过引入Attribute-Guided Prompt Tuning方法，利用基于大型语言模型生成的原始视觉属性来优化视觉-语言模型，包括软提示调整、属性抽样以及负面提示，以提升其在新类别预测和超出分布泛化任务上的表现。

Nov, 2023

仅使用文本监督在视觉-语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在4个基准测试上进行了广泛评估。

Jan, 2024

逐步多模态条件提示调整

通过迭代利用图像和当前的编码信息，我们提出了一种新颖的方法——渐进式多模态条件Prompt调整（ProMPT），通过多模态提示的方式使视觉-语言特征逐步对齐，从而实现从粗糙到准确的分类。在所有设置中，广泛的实验证明了ProMPT方法相对于现有方法的优越性。

Apr, 2024

通过提示对齐调整视觉-语言模型的候选标签

我们提出了一种框架，通过使用候选标签对VLM进行prompt learning，根据模型输出和类别后验预测，结合可学习和手工构建的提示方式来消除标签的歧义，并引入了不同的训练目标，进一步提高了性能。

Jul, 2024

通过测试时提示调优适应开放类的视觉-语言模型

本研究解决了将预训练模型适应开放类场景的挑战，尤其是在新类出现时提示的通用性不足问题。通过提出一种测试时提示调优的方法，利用最大概念匹配评分生成输入条件的提示，从而增强模型性能。实验表明，该方法在多个数据集上优于现有所有对比方法，具有显著提升效果。

Aug, 2024

可推广的视觉语言模型提示调整

本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角，并最大化它们的互信息，研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外，引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明，其在特定任务性能和一般能力方面均具竞争力。

Oct, 2024