MMOct, 2023

线性注意力或许是你所需的全部(理解 Transformer 优化的)

TL;DR通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。