TaCA: 使用任务无关的兼容适配器升级您的视觉基础模型

Jun, 2023

TaCA: 使用任务无关的兼容适配器升级您的视觉基础模型

TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter

Binjie Zhang, Yixiao Ge, Xuyuan Xu, Ying Shan, Mike Zheng Shou

TL;DR本文介绍一种名为 TaCA 的参数高效且任务不可知的适配器，可以促进不同基础模型之间的兼容性，同时保证了新模型的性能提升，以便于下游应用在无需重新训练的情况下顺利集成优秀的基础模型。

Abstract

visual foundation models like clip excel in learning feature representations from extensive datasets through self-supervised methods, demonstrating remarkable →

visual foundation models clip taca transfer learning downstream modules

发现论文，激发创造

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

Tip-Adapter：面向视觉语言模型的无需训练的 CLIP 适配器

该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型，通过无需训练的键值缓存模型构建配适器权重，极大地提升了 CLIP 的少样本分类能力。

Nov, 2021

Tip-Adapter: 无需训练的适应 CLIP 用于少样本分类

本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter，来有效地增强 Contrastive Vision-Language Pre-training（CLIP）的适应能力，为少样本学习提供了一个计算资源高效的选择。实验证明，Tip-Adapter 在 11 个数据集上均有突出表现，并可以通过少量的模型微调达到 ImageNet 上的最优。

Jul, 2022

无监督视觉语言模型的原型适配器

我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法，通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本，并利用这些选择的样本生成类别原型，用于可学习的原型模型的初始化。经过微调后，通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合，用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明，所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。

Aug, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

视觉语言模型泛化的不变测试时间适应

通过测试时间提示调整范式优化学习提示的方式，该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息，同时强调关键的与任务相关的视觉线索。

Mar, 2024

VMT-Adapter: 多任务强化学习的参数高效迁移学习

大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而，与其它单一任务的适应性方法相比，在多任务适应方面的研究有限，这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器（VMT-Adapter），其训练和推理效率与任务数量近似为 O (1)。具体而言，VMT-Adapter 通过共享多个任务的知识来增强跨任务交互，并通过独立知识提取模块保留了任务特定的知识。此外，本文还提出了 VMT-Adapter-Lite，通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性，相比于单一任务的全面微调，它们分别实现了 3.96%（1.34%）的相对改进，并仅利用了预训练模型的约 1%（0.36%）的可训练参数。

Dec, 2023

视觉转换器适配器适用于可传递多任务学习

我们引入了第一款多任务视觉变换器适配器，它能学习到适用于新任务和领域的通用任务关联性。我们的适配器融合在现成的视觉变换器骨干网络中，能够同时解决多个密集视觉任务，而不像现有的多任务变换器那样需要大量的参数。与同时方法相比，我们无需在添加新任务或领域时重新训练或微调。我们在适配器框架中引入了一种任务适应的注意机制，将基于梯度的任务相似度与基于注意力的相似度相结合。所学习的任务关联性可推广到以下情况：零样本任务迁移、无监督领域适应以及不需要对新领域进行微调的泛化。我们证明了我们的方法不仅优于现有的基于卷积神经网络的多任务方法，还优于基于视觉变换器的方法。

Aug, 2023

大规模视觉变压器通过适配器重新组合的高效适应

高容量预训练模型的出现改变了计算机视觉中的问题解决方式，专注于训练特定任务的模型转变为调整预训练模型，因而有效地将大型预训练模型适应下游任务成为一个重要的研究领域；本研究提出了一种新颖的适配器重组（ARC）策略，从新的角度解决了高效预训练模型的适应问题，通过考虑适应参数的可重用性并引入参数共享方案，通过利用对称的下 -/ 上映射构建瓶颈操作从而实现层间参数共享，通过学习低维度的重新缩放系数，可以有效地重新组合层自适应的适配器，这种参数共享策略在适配器设计中允许显著减少新参数数量，同时保持令人满意的性能，从而提供了一种有前景的压缩适应成本的方法，通过在 24 个下游图像分类任务上使用各种 Vision Transformer 变种进行实验以评估我们的方法，结果表明我们的方法在减少参数数量的同时实现了令人信服的迁移学习性能。

Oct, 2023

CapS-Adapter：基于标题的零射界多模适配器分类

CapS-Adapter 是一种创新方法，通过利用图像和字幕特征构建接近目标分布的支持集，超越现有的最先进技术，实现了在无需训练的情况下的显着零样本分类改进。

May, 2024