Oct, 2023
高效的视觉Transformer模型:动态空闲令牌策略
No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling
TL;DR为了解决Vision Transformers在计算资源受限环境中的高计算复杂度问题,该研究提出了IdleViT方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT可以将预训练ViTs的复杂性降低高达33%,在只进行30个周期的微调之后在ImageNet上的准确率降低不超过0.2%。值得注意的是,在保留比例为0.5时,IdleViT相比于最先进的EViT在DeiT-S上的准确率更高,且推理速度更快。