FacT：面向视觉 Transformer 的轻量化因子调整

AAAIDec, 2022

FacT：面向视觉 Transformer 的轻量化因子调整

FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer

Shibo Jie, Zhi-Hong Deng

TL;DR本研究针对实际应用中的存储压力，提出了一种张量分解框架，称为 Factor-Tuning（FacT），通过将 ViT 的权重张量化为一个 3D 张量，并将它们的增量分解为轻量级因子，从而实现 PETL 的极限存储效率，实验结果表明，FacT 在少量可训练参数（0.01%）的情况下，表现优于全微调和许多其他 PETL 方法，并在少样本学习中显示其强大的能力.

Abstract

Recent work has explored the potential to adapt a pre-trained vision transformer (ViT) by updating only a few parameters so as to improve storage efficiency, called parameter-efficient transfer learning (PETL). Current PETL methods have shown that by tuning only 0.5% of the parameters,

parameter-efficient transfer learning tensorization-decomposition framework factor-tuning storage efficiency few-shot learning

发现论文，激发创造

聚合、分解和微调：一种简单而有效的视觉 Transformer 因子调整方法

在视觉转换器（ViT）的背景下，最近的研究进展揭示了一些张量分解参数有效微调方法（如 LoRA 和 FacT）的有效性。然而，这些方法在解决内部和跨层冗余的挑战方面存在问题。为了解决这个问题，我们引入了 EFfective Factor-Tuning（EFFT），这是一种简单而有效的微调方法。在 VTAB-1K 数据集中，我们的 EFFT 超过了所有基准，以仅有 0.28％的参数的全面微调中取得了 75.9％的 top-1 准确率的分类平均。考虑到 EFFT 的简洁性和有效性，它具有作为基础基准的潜力。代码和模型现在可以在指定的链接中获得。

Nov, 2023

稀疏调整：用高效的微调和推理调整视觉 Transformer

Sparse-Tuning 是一种新的调优范式，通过稀疏保存信息标记并合并冗余标记，提高对前景的关注并降低背景区域的计算成本，实现了对预训练的 ViT 模型进行高效的微调和推断，同时具备了现有方法无法满足的 GPU 内存和时间效率要求。

May, 2024

PVP：预训练的视觉参数高效微调

本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架，可有效降低由于高计算和存储成本带来的计算和存储成本，并在低数据环境下实现优异的结果，特别是在贫瘠的视觉分类领域中。

Apr, 2023

视觉变压器的分层侧调节

通过轻量级分层侧网络（HSN）对 Visual Transformers 进行 Hierarchical Side-Tuning (HST) fine-tuning，实现了在各种下游任务中解决计算和内存需求大的问题，包括对象检测、实例分割和语义分割，取得了优于完全微调方法的性能。

Oct, 2023

HEAT: 头部层级参数高效调整视觉 Transformer 并利用泰勒展开法的重要性评分

使用 Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT) 方法，通过计算每个头部的重要性得分来高效微调视觉转换器（ViTs），这种方法在计算机视觉和参数高效转移学习方面取得了优越的性能。

Apr, 2024

从精度冗余的角度重新审视适配器的参数效率

透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間，本研究發現低精度的適配器達到與高精度適配器相當的性能，且 1 位精度就足夠。

Jul, 2023

探索密集预测的参数，记忆和时间高效适配器调整：参数高效并不足够

本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法，通过梯度反向传播高速公路实现低秩适配器，可以在保持模型性能相当的情况下，节省高达 62.2% 的训练存储器和 26.2% 的训练时间。

Jun, 2023

预训练视觉模型的参数高效微调：一项调查

规模化预训练视觉模型（PVMs）在各种下游视觉任务中表现出很大的适应性。然而，随着最先进的 PVMs 达到数十亿甚至数万亿参数，传统的完全微调范式变得难以持续，因为其需要巨大的计算和存储需求。为了应对这一挑战，研究人员正在探索参数高效的微调（PEFT），旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向，对最新的进展进行了系统回顾。首先，我们提供了 PEFT 的正式定义，并讨论了模型预训练方法。然后，我们将现有方法分为三类：基于添加的、基于部分的和基于统一的。最后，我们介绍了常用的数据集和应用，并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。

Feb, 2024

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

参数高效微调无灾难性遗忘的自监督视觉迁移模型

人工神经网络经常面临灾难性遗忘的问题，其中视觉变换器尤其明显，我们通过两种参数高效的微调策略（块扩展和低秩适应）研究了如何解决这一问题，结果显示使用这些策略后的预训练视觉变换器在新领域具有更好的参数效率且能有效减轻灾难性遗忘。

Apr, 2024