ACLJun, 2021
基于 Transformer 的语言模型中的平移无关自注意力论证
The Case for Translation-Invariant Self-Attention in Transformer-Based Language Models
Ulme Wennberg, Gustav Eje Henter
TL;DR本文分析了现有语言模型的位置嵌入,发现其对于自注意力有着强烈的翻译不变性,并提出了一种解决方案 —— 翻译不变的自注意力模型(TISA),它可以以一种可解释的方式考虑标记之间的相对位置,而无需传统的位置嵌入,实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。