Mar, 2024
针对ViT适应的参数和推理效率的动态调整
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT
Adaptation
TL;DR现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练ViT模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出了一种名为动态调整(DyT)的新方法,来改善ViT适应的参数和推理效率。具体而言,除了使用轻量级适配器模块外,我们还提出了一个标记分发器,用于区别信息丰富的标记和不重要的标记,从而使后者动态跳过原始块,减少推理过程中的冗余计算。此外,我们探索了多种设计变体以找到DyT的最佳实践。最后,受混合专家(MoE)机制的启发,我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如,在VTAB-1K基准测试中,DyT在触发71%-85%的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。