Apr, 2024

视觉 Transformer 中查询 - 键交互的解析

TL;DR通过奇异值分解研究图像视觉变换器中的自注意力机制,发现早期层更倾向于关注相似的标记,而后期层则更多地注意不相似的标记,这些奇异值表示的特征之间的相互作用具有可解释性,从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。