May, 2021
你真的需要注意力吗?仅使用一堆前馈层就可以在ImageNet上惊人地表现
Do You Even Need Attention? A Stack of Feed-Forward Layers Does
Surprisingly Well on ImageNet
TL;DR通过在Vision Transformer中替换Attention层为基于Patch维度的前馈网络,本文发现除Attention层外,Transformer中的其他方面,例如patch embedding,可能更加关键。在ImageNet实验中,新架构的表现意外地好,为74.9% top-1 accuracy。