Sep, 2020

使用更好的相对位置嵌入改进Transformer模型

TL;DR本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在SQuAD1.1上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。