Aug, 2022

Transformer vs. MLP-Mixer: 自然语言处理问题的指数表达差距

TL;DR本文分析了基于MLP的体系结构模拟多个不同输入之间依赖关系的表达能力,并展示了注意力机制和基于MLP的机制之间的指数差距,从而提供了MLP无法与注意力机制在NLP问题中竞争的理论解释。此外,文中还提出,MLP相对于注意力机制在建模多个不同位置之间的依赖关系的能力较弱,而将智能输入排列与MLP体系结构结合可能不足以单独消除性能差距。