时间、内存和参数高效的视觉适应

Feb, 2024

时间、内存和参数高效的视觉适应

Time-, Memory- and Parameter-Efficient Visual Adaptation

Otniel-Bogdan Mercea, Alexey Gritsenko, Cordelia Schmid, Anurag Arnab

TL;DR我们提出了一个不需要反向传播梯度的适应方法，该方法在参数、训练时间和内存使用方面都非常高效，并且在 VTAB 基准测试中实现了极好的准确性 - 参数折衷，并展示了在视频分类等计算密集型任务中对于训练效率和可扩展性上的优越性。

Abstract

As foundation models become more popular, there is a growing need to efficiently finetune them for downstream tasks. Although numerous adaptation methods have been proposed, they are designed to be efficient only in terms of how many parameters are trained. They, however, typically sti

foundation models finetuning adaptation methods training efficiency scalability

发现论文，激发创造

视觉 Transformer 的参数高效模型适应

本文研究了视觉变换器的参数高效模型适应策略，提出了一种基于局部内在维度的参数高效模型适应框架，并通过实验比较了不同方法在各项指标下的表现。结果表明，该框架在少样本下的 20 个图像分类数据集和全样本下的 7 个图像分类数据集上，在准确性和参数效率之间的平衡上表现最佳。

Mar, 2022

探索密集预测的参数，记忆和时间高效适配器调整：参数高效并不足够

本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法，通过梯度反向传播高速公路实现低秩适配器，可以在保持模型性能相当的情况下，节省高达 62.2% 的训练存储器和 26.2% 的训练时间。

Jun, 2023

VMT-Adapter: 多任务强化学习的参数高效迁移学习

大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而，与其它单一任务的适应性方法相比，在多任务适应方面的研究有限，这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器（VMT-Adapter），其训练和推理效率与任务数量近似为 O (1)。具体而言，VMT-Adapter 通过共享多个任务的知识来增强跨任务交互，并通过独立知识提取模块保留了任务特定的知识。此外，本文还提出了 VMT-Adapter-Lite，通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性，相比于单一任务的全面微调，它们分别实现了 3.96%（1.34%）的相对改进，并仅利用了预训练模型的约 1%（0.36%）的可训练参数。

Dec, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

ST-Adapter：基于转移学习的高效图像到视频参数适配器

本文针对跨模态参数高效的图像到视频传递学习进行了研究，并提出了一种新的适应器 ——Spatio-Temporal Adapter，可以在较小的成本下实现有关动态视频内容的空时推理能力，并在视频动作识别任务上匹配或超越完全微调策略和最先进的视频模型，同时又具有参数效率的优势。

Jun, 2022

从精度冗余的角度重新审视适配器的参数效率

透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間，本研究發現低精度的適配器達到與高精度適配器相當的性能，且 1 位精度就足夠。

Jul, 2023

大规模视觉变压器通过适配器重新组合的高效适应

高容量预训练模型的出现改变了计算机视觉中的问题解决方式，专注于训练特定任务的模型转变为调整预训练模型，因而有效地将大型预训练模型适应下游任务成为一个重要的研究领域；本研究提出了一种新颖的适配器重组（ARC）策略，从新的角度解决了高效预训练模型的适应问题，通过考虑适应参数的可重用性并引入参数共享方案，通过利用对称的下 -/ 上映射构建瓶颈操作从而实现层间参数共享，通过学习低维度的重新缩放系数，可以有效地重新组合层自适应的适配器，这种参数共享策略在适配器设计中允许显著减少新参数数量，同时保持令人满意的性能，从而提供了一种有前景的压缩适应成本的方法，通过在 24 个下游图像分类任务上使用各种 Vision Transformer 变种进行实验以评估我们的方法，结果表明我们的方法在减少参数数量的同时实现了令人信服的迁移学习性能。

Oct, 2023

稀疏调整：用高效的微调和推理调整视觉 Transformer

Sparse-Tuning 是一种新的调优范式，通过稀疏保存信息标记并合并冗余标记，提高对前景的关注并降低背景区域的计算成本，实现了对预训练的 ViT 模型进行高效的微调和推断，同时具备了现有方法无法满足的 GPU 内存和时间效率要求。

May, 2024

冻结骨干网络：一种参数高效的对比学习方法用于稳健的医疗视觉 - 语言预训练

现代医疗常常使用放射影像和文字报告进行诊断，鼓励使用大型预训练模型进行视觉 - 语言自监督学习 (VL-SSL) 以学习多功能的医学视觉表示。然而，大部分现有的 VL-SSL 框架都是端到端训练的，计算成本高，并且可能丢失预训练编码器中嵌入的重要先验信息。为了解决这两个问题，我们引入了适用于任意骨干网络的 Adaptor 框架，通过保持预训练的图像和文本编码器的冻结状态，并采用轻量级的 Adaptor 模块进行跨模态学习来保留医学知识。在三个数据集上进行的医学图像分类和分割任务实验表明，与当前的预训练方法相比，我们的框架在保持可训练参数减少 90% 以上的同时，具有竞争性的性能。值得注意的是，仅使用 1% 的数据进行微调时，Adaptor 在医学图像分割方面胜过了针对完整数据集训练的几种基于 Transformer 的方法。

Jan, 2024

预训练视觉模型的无损调整在机器人操作中的应用

本文提出 “无损调适” 方案，以解决 fine-tuning 过程对预训练模型通用性的破坏，实验证明此方案在各种任务和模型（ViTs，NFNets 和 ResNets）上表现良好。

Apr, 2023