ACLJun, 2021

基于 Transformer 的语言模型中的平移无关自注意力论证

TL;DR本文分析了现有语言模型的位置嵌入,发现其对于自注意力有着强烈的翻译不变性,并提出了一种解决方案 —— 翻译不变的自注意力模型(TISA),它可以以一种可解释的方式考虑标记之间的相对位置,而无需传统的位置嵌入,实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。