稀疏调整:用高效的微调和推理调整视觉Transformer
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将Vision transformers稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
本文研究了视觉变换器的参数高效模型适应策略,提出了一种基于局部内在维度的参数高效模型适应框架,并通过实验比较了不同方法在各项指标下的表现。结果表明,该框架在少样本下的20个图像分类数据集和全样本下的7个图像分类数据集上,在准确性和参数效率之间的平衡上表现最佳。
Mar, 2022
本文提出了SparseViT,通过窗口激活剪枝技术对最近的基于窗口的视觉变换器(VITs)进行活化稀疏化处理,通过稀疏感知的调整和进化搜索,实现不同层次适应不同的剪枝比率优化。SparseViT在不降低准确性的前提下,分别在单眼3D目标检测、2D实例分割和2D语义分割中实现了1.5x、1.4x和1.3x的速度提升。
Mar, 2023
本文通过一系列超过1.8k个控制实验,对少样本图像分类的PEFT(参数效率微调)方法进行了大规模、实验一致的经验分析,发现只微调层归一化参数及学习一组每个注意力矩阵的缩放参数的方法,成为Vision Transformer预训练模型最强大的微调方法。此外,对于自监督ViTs,我们发现仅学习每个注意力矩阵的缩放参数和一个Domain-residual adapter(DRA)模块即可实现无与伦比的性能表现,而模型可参数化程度更高。
Apr, 2023
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的PVMs达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉PEFT的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了PEFT的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024
现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练ViT模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出了一种名为动态调整(DyT)的新方法,来改善ViT适应的参数和推理效率。具体而言,除了使用轻量级适配器模块外,我们还提出了一个标记分发器,用于区别信息丰富的标记和不重要的标记,从而使后者动态跳过原始块,减少推理过程中的冗余计算。此外,我们探索了多种设计变体以找到DyT的最佳实践。最后,受混合专家(MoE)机制的启发,我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如,在VTAB-1K基准测试中,DyT在触发71%-85%的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。
Mar, 2024
本研究解决了视觉变换器(ViTs)微调过程资源消耗高的问题,提出了一种名为ALaST的高效微调方法。该方法通过自适应评估各层的重要性,精确分配计算预算,显著提高了微调效率,减少了训练时间、计算量和内存负担。研究显示,使用此方法能够在保持性能的同时,训练时间缩短达1.5倍,计算量和内存减少均可达2倍。
Aug, 2024
本研究解决了现有参数高效迁移学习方法在推理阶段对简单样本计算资源分配过多的问题。提出的多出口调优(MET)方法通过集成多个出口到视觉变换器中,使简单样本能在早期出口退出,从而提高推理效率。实验结果表明,MET在准确性和推理效率上优于现有的先进方法。
Sep, 2024
本研究针对预训练视觉变换器在下游任务中的低秩适应矩阵适应性不足的问题,提出了一种新颖的参数高效微调方法。该方法灵感来源于奇异值分解,通过Householder变换构造正交矩阵,使适应矩阵在不同层之间可灵活变换秩,从而提升微调效果。实验结果表明,该方法在标准下游视觉任务中表现出色。
Oct, 2024
本文解决了在稀疏调优中内存使用量增加的问题,通过提出一种名为SNELL的方法,实现了低内存使用的稀疏调优。该方法通过将可调矩阵分解为两个可学习的低秩矩阵,并引入竞争式稀疏化机制来减少内存占用,最终在多个下游任务中证明了其在保持高性能的同时降低内存使用的有效性。
Nov, 2024