May, 2021

你真的需要注意力吗?仅使用一堆前馈层就可以在ImageNet上惊人地表现

TL;DR通过在Vision Transformer中替换Attention层为基于Patch维度的前馈网络,本文发现除Attention层外,Transformer中的其他方面,例如patch embedding,可能更加关键。在ImageNet实验中,新架构的表现意外地好,为74.9% top-1 accuracy。