May, 2023

位置编码对 Transformer 中长度推广的影响

TL;DR本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SGD 训练时,它主要呈现 T5 相对位置嵌入的注意力模式。同时,scratchpad 并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。