通过Householder变换高效适应预训练视觉变换器

Oct, 2024

通过Householder变换高效适应预训练视觉变换器

Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation

Wei Dong, Yuan Sun, Yiting Yang, Xing Zhang, Zhijun Lin...

TL;DR本研究针对预训练视觉变换器在下游任务中的低秩适应矩阵适应性不足的问题，提出了一种新颖的参数高效微调方法。该方法灵感来源于奇异值分解，通过Householder变换构造正交矩阵，使适应矩阵在不同层之间可灵活变换秩，从而提升微调效果。实验结果表明，该方法在标准下游视觉任务中表现出色。

Abstract

A common strategy for Parameter-Efficient Fine-Tuning (PEFT) of pre-trained Vision Transformers (ViTs) involves adapting the model to downstream tasks by learning a →

发现论文，激发创造

视觉Transformer的参数高效模型适应

本文研究了视觉变换器的参数高效模型适应策略，提出了一种基于局部内在维度的参数高效模型适应框架，并通过实验比较了不同方法在各项指标下的表现。结果表明，该框架在少样本下的20个图像分类数据集和全样本下的7个图像分类数据集上，在准确性和参数效率之间的平衡上表现最佳。

Mar, 2022

预训练视觉模型的参数高效微调：一项调查

规模化预训练视觉模型（PVMs）在各种下游视觉任务中表现出很大的适应性。然而，随着最先进的PVMs达到数十亿甚至数万亿参数，传统的完全微调范式变得难以持续，因为其需要巨大的计算和存储需求。为了应对这一挑战，研究人员正在探索参数高效的微调（PEFT），旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉PEFT的综合概述和未来方向，对最新的进展进行了系统回顾。首先，我们提供了PEFT的正式定义，并讨论了模型预训练方法。然后，我们将现有方法分为三类：基于添加的、基于部分的和基于统一的。最后，我们介绍了常用的数据集和应用，并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。

Feb, 2024

针对ViT适应的参数和推理效率的动态调整

现有的参数高效微调（PEFT）方法通过提高参数效率，在视觉变换器（ViTs）适应中取得了显著的成功，然而，在适应过程中改善推理效率的探索仍未充分开展，这限制了预训练ViT模型的广泛应用，特别是在计算上耗费较多的情况下。在本文中，我们提出了一种名为动态调整(DyT)的新方法，来改善ViT适应的参数和推理效率。具体而言，除了使用轻量级适配器模块外，我们还提出了一个标记分发器，用于区别信息丰富的标记和不重要的标记，从而使后者动态跳过原始块，减少推理过程中的冗余计算。此外，我们探索了多种设计变体以找到DyT的最佳实践。最后，受混合专家（MoE）机制的启发，我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如，在VTAB-1K基准测试中，DyT在触发71％-85％的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。

Mar, 2024

低秩重缩放视觉转换器微调：一种残差设计方法

利用奇异值分解对预训练参数矩阵进行精细调整的高效参数微调方法提供了对现有方法调整动态的洞察，通过残差设计确保新参数不会过度偏离预训练模型，实验结果表明，这种方法在各种下游图像分类任务中实现了竞争性的性能，并且保持了可比较的新参数。

Mar, 2024

稀疏调整：用高效的微调和推理调整视觉Transformer

Sparse-Tuning是一种新的调优范式，通过稀疏保存信息标记并合并冗余标记，提高对前景的关注并降低背景区域的计算成本，实现了对预训练的ViT模型进行高效的微调和推断，同时具备了现有方法无法满足的GPU内存和时间效率要求。

May, 2024

SVFT：具有奇异向量的参数高效微调

通过在参数更新中使用矩阵的稀疏组合，SVFT方法在仅使用0.006%到0.25%的可训练参数时，能够恢复高达96%的全面微调性能，超过了仅使用0.03%到0.8%的可训练参数预算恢复的最高85%性能。

May, 2024

ExPLoRA：参数高效的扩展预训练用于适应领域偏移的视觉变换器

通过使用ExPLoRA技术，在对卫星图像进行迁移学习时，只使用很少的参数数量，在无监督的预训练阶段只解冻1-2个预训练的ViT块和所有归一化层，然后通过LoRA微调所有其他层，最后只通过LoRA在新域上对模型进行微调，获得了基于先前完全训练和微调的ViTs的最先进结果。

Jun, 2024

高效视觉变换器微调的自适应层选择

本研究解决了视觉变换器(ViTs)微调过程资源消耗高的问题，提出了一种名为ALaST的高效微调方法。该方法通过自适应评估各层的重要性，精确分配计算预算，显著提高了微调效率，减少了训练时间、计算量和内存负担。研究显示，使用此方法能够在保持性能的同时，训练时间缩短达1.5倍，计算量和内存减少均可达2倍。

Aug, 2024

SVFit：使用奇异值的参数高效微调大型预训练模型

本研究解决了在资源受限环境中，完全微调大型预训练模型时的内存挑战。我们提出的SVFit方法通过奇异值分解初始化低秩矩阵，采用关键奇异值作为可训练参数，从而提高了梯度下降的效率和模型的泛化能力。研究结果表明，SVFit在多个自然语言理解和计算机视觉任务中表现优于LoRA，同时所需可训练参数减少了16倍。

Sep, 2024

用于不确定性意识深度估计的参数高效贝叶斯神经网络

本研究解决了在计算机视觉中单目深度估计面临的模型可靠性和不确定性量化问题。通过将参数高效微调方法与贝叶斯推断相结合，提出了一种新颖的方法，以实现大型Transformer模型的更稳健的预测性能。研究结果表明，这种结合能够在安全关键领域提供更加可靠的性能表现。

Sep, 2024