ACLMay, 2023

无需位置嵌入,自注意力变化中潜在位置信息的转换语言模型

TL;DR本研究论述了传统 Transformer 语言模型中位置嵌入的必要性,提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息,可以舍弃位置嵌入以提高预训练模型的效率。