高效视觉变换器微调的自适应层选择
本文提出了一种多粒度输入自适应Transformer框架MIA-Former,可以在多个粒度上调整ViTs的结构以适应输入图像的不同难度,并且具有改进对抗攻击鲁棒性的效果。经过实验验证,MIA-Former能够有效地分配计算资源,并取得与SOTA动态Transformer模型相比甚至更高的准确率和更低的计算复杂度。
Dec, 2021
该研究提出使用可学习的记忆令牌来增强视觉Transformer模型,使其适应新任务,使用较少的参数,同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量,即“记忆令牌”,提供对特定数据集有用的上下文信息。该模型的准确性,通过每层只增加少量记忆令牌来显着改善,表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法,使其能够扩展到新的下游任务,模型可在小的增量成本下同时执行旧任务和新任务。
Mar, 2022
本文研究了视觉变换器的参数高效模型适应策略,提出了一种基于局部内在维度的参数高效模型适应框架,并通过实验比较了不同方法在各项指标下的表现。结果表明,该框架在少样本下的20个图像分类数据集和全样本下的7个图像分类数据集上,在准确性和参数效率之间的平衡上表现最佳。
Mar, 2022
本文通过一系列超过1.8k个控制实验,对少样本图像分类的PEFT(参数效率微调)方法进行了大规模、实验一致的经验分析,发现只微调层归一化参数及学习一组每个注意力矩阵的缩放参数的方法,成为Vision Transformer预训练模型最强大的微调方法。此外,对于自监督ViTs,我们发现仅学习每个注意力矩阵的缩放参数和一个Domain-residual adapter(DRA)模块即可实现无与伦比的性能表现,而模型可参数化程度更高。
Apr, 2023
局部微调可以同时提高效率和准确性,选取适合的层对局部微调至关重要。通过引入新的微调角度度量,可以灵活适应各种场景用于更实用的局部微调,同时提高模型性能和泛化能力,减少微调参数。实验证明了局部微调的巨大潜力。
Dec, 2023
现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练ViT模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出了一种名为动态调整(DyT)的新方法,来改善ViT适应的参数和推理效率。具体而言,除了使用轻量级适配器模块外,我们还提出了一个标记分发器,用于区别信息丰富的标记和不重要的标记,从而使后者动态跳过原始块,减少推理过程中的冗余计算。此外,我们探索了多种设计变体以找到DyT的最佳实践。最后,受混合专家(MoE)机制的启发,我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如,在VTAB-1K基准测试中,DyT在触发71%-85%的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。
Mar, 2024
人工神经网络经常面临灾难性遗忘的问题,其中视觉变换器尤其明显,我们通过两种参数高效的微调策略(块扩展和低秩适应)研究了如何解决这一问题,结果显示使用这些策略后的预训练视觉变换器在新领域具有更好的参数效率且能有效减轻灾难性遗忘。
Apr, 2024
Sparse-Tuning是一种新的调优范式,通过稀疏保存信息标记并合并冗余标记,提高对前景的关注并降低背景区域的计算成本,实现了对预训练的ViT模型进行高效的微调和推断,同时具备了现有方法无法满足的GPU内存和时间效率要求。
May, 2024
本研究针对预训练视觉变换器在下游任务中的低秩适应矩阵适应性不足的问题,提出了一种新颖的参数高效微调方法。该方法灵感来源于奇异值分解,通过Householder变换构造正交矩阵,使适应矩阵在不同层之间可灵活变换秩,从而提升微调效果。实验结果表明,该方法在标准下游视觉任务中表现出色。
Oct, 2024