ICMLMay, 2020

合成器:重新思考 Transformer 模型中的自注意力

TL;DR通过大量实验,本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献,并提出了一种无需 token 交互的学习合成注意力权重的模型 Synthesizer,并在多个任务中取得了竞争性的表现,证明了该模型的有效性。同时,与动态卷积和 Linformers 相比较,Synthesizer 不但更快,而且还提高了 perplexity。