针对ViT适应的参数和推理效率的动态调整

Mar, 2024

针对ViT适应的参数和推理效率的动态调整

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation

Wangbo Zhao, Jiasheng Tang, Yizeng Han, Yibing Song, Kai Wang...

TL;DR现有的参数高效微调（PEFT）方法通过提高参数效率，在视觉变换器（ViTs）适应中取得了显著的成功，然而，在适应过程中改善推理效率的探索仍未充分开展，这限制了预训练ViT模型的广泛应用，特别是在计算上耗费较多的情况下。在本文中，我们提出了一种名为动态调整(DyT)的新方法，来改善ViT适应的参数和推理效率。具体而言，除了使用轻量级适配器模块外，我们还提出了一个标记分发器，用于区别信息丰富的标记和不重要的标记，从而使后者动态跳过原始块，减少推理过程中的冗余计算。此外，我们探索了多种设计变体以找到DyT的最佳实践。最后，受混合专家（MoE）机制的启发，我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如，在VTAB-1K基准测试中，DyT在触发71％-85％的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。

Abstract

Existing parameter-efficient fine-tuning (PEFT) methods have achieved significant success on vision transformers (ViTs) adaptation by improving parameter efficiency. However, the exploration of enhancing