APoLLo：统一的视觉语言模型适配器与提示学习

EMNLPDec, 2023

APoLLo：统一的视觉语言模型适配器与提示学习

APoLLo: Unified Adapter and Prompt Learning for Vision Language Models

Sanjoy Chowdhury, Sayan Nag, Dinesh Manocha

TL;DRAPoLLo 是一种统一的多模态方法，结合了 Adapter 和 Prompt 学习用于增强 Vision-Language 模型在 few-shot 环境下的泛化能力，通过引入可训练的交叉注意力适配器层和视觉与语言编码器来加强两种模态之间的对齐，并通过确保编码器分支之间的一致性来防止过拟合，在新颖类别的 10 个不同图像识别数据集上，APoLLo 相对于 MaLPe (SOTA) 实现了高达 6.03% 的相对增益。

Abstract

The choice of input text prompt plays a critical role in the performance of Vision-Language Pretrained (VLP) models such as CLIP. We present apollo, a unified multi-modal approach that combines →

input text prompt vision-language pretrained models apollo adapter and prompt learning generalization capabilities

发现论文，激发创造

APLe: 多模态提示学习的逐令牌自适应

通过使用 Token-wise Adaptive for Multi-modal Prompt Learning (APLe) 在顺序方式中对视觉和语言两个模态的提示进行调整，APLe 解决了视觉 - 语言模型中的挑战，提高了提示学习的性能，具有与最先进技术相媲美的泛化性能。

Jan, 2024

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

无监督视觉语言模型的原型适配器

我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法，通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本，并利用这些选择的样本生成类别原型，用于可学习的原型模型的初始化。经过微调后，通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合，用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明，所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。

Aug, 2023

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。

Oct, 2022

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024