CVPRMar, 2023

Sparsifiner:学习稀疏实例相关注意力以提高视觉 Transformer 的效率

TL;DR本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。