重新审视视觉语言模型的提示预训练

Sep, 2024

重新审视视觉语言模型的提示预训练

Revisiting Prompt Pretraining of Vision-Language Models

Zhenyuan Chen, Lingfeng Yang, Shuo Chen, Zhaowei Chen, Jiajun Liang...

TL;DR本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Abstract

Prompt Learning is an effective method to customize Vision-Language Models (VLMs) for various downstream tasks, involving tuning very few parameters of input prompt tokens. Recently, prompt →

发现论文，激发创造

基于贝叶斯提示学习的图像-语言模型泛化

研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题，在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。

Oct, 2022

基于原型的提示学习：基于预训练的视觉语言模型的原型提示学习

本文介绍了一个基于原型的新型学习方法——原型提示学习法（PTP），用于在预先训练的视觉语言模型中进行少量样本的图像识别任务。通过定义图像原型和提示原型来实现相似图像的相似提示，从而有效地利用潜在知识并适应各种PVLM。

Oct, 2022

构建强韧的图像-语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

视觉语言提示学习中的重参数化编码器

PRE是一种简单而高效的方法，通过使用一种 prompt 编码器来重新参数化输入 prompt 嵌入，从而增强对从少量样本中探索任务特定知识的能力，其在新类上实现了5.60%的平均准确率提升和3%的调和平均数提升。

Sep, 2023

重新参数化的低秩提示：在0.5K参数范围内泛化视觉语言模型

通过重新参数化低秩提示（RLP），我们设计了一种新型提示，用于高效和有效地适应基于视觉和语言的模型，并显著增加了传统提示调整的平均下游准确性，仅使用0.5K的参数。

Dec, 2023

使提示可调整：基于贝叶斯建模的视觉-语言提示学习与数据相关先验

利用贝叶斯框架中的Prompt学习方法，通过建模数据相关先验，减轻少样本学习中的过拟合问题，提高提示信息对未知样例的适应性，并展示相对现有方法在基准数据集上显著性能改进的统计结果。

Jan, 2024

PromptKD: 无监督的视觉语言模型提示蒸馏

在这篇论文中，我们介绍了一种无监督域提示蒸馏框架，通过使用未标记的领域图像进行提示驱动的模仿，旨在将更大的教师模型的知识转移给轻量级目标模型。

Mar, 2024

视觉语言模型的混合提示学习

本文研究了传统提示学习方法在适应新任务时面临的挑战，如无法捕捉数据集中的多样性和易于过拟合。提出了一种混合软提示学习方法，通过路由模块动态选择适合每个实例的提示，从而大幅提高在少样本学习和领域泛化中的效果。该方法在11个数据集上的验证显示出明显的性能提升。

Sep, 2024

聚合与适应自然语言提示以实现CLIP的下游泛化

本研究解决了大型预训练视觉语言模型CLIP在特定领域或细粒度分类任务中的泛化能力不足的问题。通过提炼自然语言提示的文本知识，我们提出了一种新的聚合与适应提示嵌入（AAPE），能够在有限注释数据的情况下更有效地适应下游任务，使其在视觉语言理解和生成任务中显示出竞争力的表现，特别是在处理非常规和OOD示例时效果显著。

Oct, 2024