EMNLPOct, 2022

绝对位置嵌入的奇妙案例

TL;DR使用 Transformer 语言模型中的绝对位置嵌入会导致对相对位置信息的过度依赖,从而使得模型在句子位置信息被移位时性能显著下降,这表明了使用绝对位置嵌入所建模 “相对位置信息” 的功效需要重新审视。