视觉语言模型的混合提示学习

Sep, 2024

Mixture of Prompt Learning for Vision Language Models

Yu Du, Tong Niu, Rong Zhao

TL;DR本文研究了传统提示学习方法在适应新任务时面临的挑战，如无法捕捉数据集中的多样性和易于过拟合。提出了一种混合软提示学习方法，通过路由模块动态选择适合每个实例的提示，从而大幅提高在少样本学习和领域泛化中的效果。该方法在11个数据集上的验证显示出明显的性能提升。

Abstract

As powerful pre-trained Vision-Language Models (VLMs) like CLIP gain prominence, numerous studies have attempted to combine VLMs for downstream tasks. Among these, Prompt Learning has been validated as an effecti

发现论文，激发创造

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于Vision & Language模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在11个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和CLIP的新类准确性。

Oct, 2022

基于最优输运的PLOT方法用于视觉语言模型的提示学习

这篇文章提出了一种利用optimal transport算法将视觉与文本模态进行匹配的方法，在此基础上学习出多种全面的prompt，优化输入图像的分类效果，两阶段优化策略取得了很好的效果。

Oct, 2022

MaPLe: 多模态提示学习

本研究提出了多模态提示学习(MaPLe)的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉-语言提示之间的强耦合，以改善CLIP的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

视觉语言提示学习中的重参数化编码器

PRE是一种简单而高效的方法，通过使用一种 prompt 编码器来重新参数化输入 prompt 嵌入，从而增强对从少量样本中探索任务特定知识的能力，其在新类上实现了5.60%的平均准确率提升和3%的调和平均数提升。

Sep, 2023

仅使用文本监督在视觉-语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在4个基准测试上进行了广泛评估。

Jan, 2024

使提示可调整：基于贝叶斯建模的视觉-语言提示学习与数据相关先验

利用贝叶斯框架中的Prompt学习方法，通过建模数据相关先验，减轻少样本学习中的过拟合问题，提高提示信息对未知样例的适应性，并展示相对现有方法在基准数据集上显著性能改进的统计结果。

Jan, 2024

领域泛化的软提示生成

大型预训练视觉语言模型（VLMs）在下游任务中展现出令人印象深刻的零-shot能力，但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法，通过在特定域数据上进行微调，将软提示作为学习向量。我们从生成的角度重构了提示学习框架，并提出了一种简单而高效的域泛化（DG）任务方法，即软提示生成（SPG）。在训练阶段，我们引入了每个领域的软提示标签，以融合生成模型的领域知识。在推理阶段，生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的SPG方法达到了最先进的性能。代码将很快提供。

Apr, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024