Nov, 2024
注意力转移在视觉变换器中的惊人有效性
On the Surprising Effectiveness of Attention Transfer for Vision
Transformers
TL;DR本研究关注预训练视觉变换器(ViT)对下游性能影响的真实性,发现预训练过程中学习的特征并非必需。研究提出了一种简单的方法——注意力转移,表明仅通过转移预训练教师模型的注意力模式,学生模型也能从零开始学习出高质量特征,并实现相当的下游性能。这一发现为理解预训练的作用提供了新的视角,并为传统的微调方法提供了替代方案。