CLIP-Adapter: 特征适配器提升视觉语言模型

Oct, 2021

CLIP-Adapter: 特征适配器提升视觉语言模型

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

Peng Gao, Shijie Geng, Renrui Zhang, Teli Ma, Rongyao Fang...

TL;DR本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于context optimization

Abstract

Large-scale contrastive vision-language pre-training has shown significant progress in visual representation learning. Unlike traditional visual systems trained by a fixed set of discrete labels, a new paradigm was introduced in \cite{radford2021learning} to directly learn to align ima

发现论文，激发创造

Tip-Adapter：面向视觉语言模型的无需训练的CLIP适配器

该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型，通过无需训练的键值缓存模型构建配适器权重，极大地提升了 CLIP 的少样本分类能力。

Nov, 2021

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为VT-CLIP的方法来增强CLIP模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示，在ImageNet以及其他10个数据集上，与原始CLIP相比，UPL具有更优秀的传输表现，并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。

Apr, 2022

Tip-Adapter: 无需训练的适应 CLIP 用于少样本分类

本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter，来有效地增强 Contrastive Vision-Language Pre-training（CLIP）的适应能力，为少样本学习提供了一个计算资源高效的选择。实验证明，Tip-Adapter 在 11 个数据集上均有突出表现，并可以通过少量的模型微调达到 ImageNet 上的最优。

Jul, 2022

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的CLIP模型上增加附加层，我们提出了一种利用预训练视觉-语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改CLIP文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案——一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

元适配器：一个用于视觉-语言模型的在线少样本学习者

提出了Meta-Adapter方法，它是一种轻量级的残差式适配器，通过在线学习利用少量样本来优化CLIP特征，从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力，并取得了竞争性的性能和高效率。

Nov, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了VLMs的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

CLIPArTT: 测试时基于新领域的CLIP轻量级适应

通过在推理过程中自动构建文本提示并使用其作为文本监督，CLIPArTT方法在不需要额外培训的情况下，通过独特的、最小侵入性的文本提示调优过程，使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。

May, 2024

完全微调的CLIP模型是高效的小样本学习器

通过CLIP-CITE框架，我们在最小参数调整的情况下，通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识，有效地提升了特定任务在有限监督下的性能，同时保留了VLMs在其他数据集上的适应性。

Jul, 2024

多模态适配器用于视觉语言模型

本研究针对现有的轻量级适配方法在视觉和文本表征之间缺乏互动的问题，提出了一种名为多模态适配器的新方法。通过引入可训练的多头注意力层，该方法有效结合了图像和文本特征，实现了更好的模型通用性，并在未见类别上的表现优于现有的适配方法。

Sep, 2024