基于梯度约束的锐度感知提示学习用于视觉语言模型

Sep, 2023

基于梯度约束的锐度感知提示学习用于视觉语言模型

Gradient constrained sharpness-aware prompt learning for vision-language models

Liangchen Liu, Nannan Wang, Dawei Zhou, Xinbo Gao, Decheng Liu...

TL;DR该研究纸针对一个新颖的权衡问题，即在视觉语言模型（VLM）的可推广提示学习中，提高对未知类别的性能同时保持对已知类别的性能。通过分析当前方法和广泛使用的锐度感知最小化（SAM）的损失地形，我们得出结论：权衡性能与损失值和损失锐度相关，而两者都是必不可少的。然而，我们发现现有方法的优化梯度在整个优化过程中不能始终保持与损失值和损失锐度的高一致性。因此，我们提出了一种基于SAM的新方法，称为梯度约束锐度感知上下文优化（GCSCoOp），以动态约束优化梯度，从而同时实现上述的两个优化目标。广泛的实验证实了GCSCoOp在权衡问题上的有效性。

Abstract

This paper targets a novel trade-off problem in generalizable prompt learning for vision-language models (VLM), i.e., improving the perfor

发现论文，激发创造

基于贝叶斯提示学习的图像-语言模型泛化

研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题，在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。

Oct, 2022

构建强韧的图像-语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

面向视觉-语言模型的分布感知提示调整

通过学习大规模数据的知识，预训练的视觉-语言模型（VLMs）在各种下游任务中表现出色。本文提出了分布感知的提示微调（DAPT），通过对齐两种模态之间的特征空间，并对每种模态的嵌入进行良好排列，显著改善了模型的泛化能力。

Sep, 2023

双对齐下的上下文感知视觉-语言模型提示调优

利用双重对齐提示调整(DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023

重新参数化的低秩提示：在0.5K参数范围内泛化视觉语言模型

通过重新参数化低秩提示（RLP），我们设计了一种新型提示，用于高效和有效地适应基于视觉和语言的模型，并显著增加了传统提示调整的平均下游准确性，仅使用0.5K的参数。

Dec, 2023

PromptSync：通过分类感知的原型对齐和判别消除视觉语言模型中的领域差距

通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题，并在测试中取得明显优于其他方法的结果。

Apr, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024

可推广的视觉语言模型提示调整

本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角，并最大化它们的互信息，研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外，引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明，其在特定任务性能和一般能力方面均具竞争力。

Oct, 2024

GLOV：作为隐式优化器的指导大型语言模型用于视觉语言模型

本研究提出了一种新方法GLOV，使大型语言模型(LMs)能够作为视觉-语言模型(VLMs)的隐式优化器，以提升下游视觉任务的性能。通过对下游任务描述进行meta提示，GLOV将合适的VLM提示进行排序，从而优化模型输出，实验证明该方法在多个数据集上可显著提升视觉任务的识别性能，表现出高达57.5%的提升潜力。

Oct, 2024