该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾,聚焦于可外推位置编码方法,旨在帮助读者深入理解已有方法并为未来研究提供启示。
Dec, 2023
本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。
May, 2022
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力,通过引入相对位置编码和块状因果注意力机制,可以有效提高模型的预测性能。
Dec, 2022
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由于隐式窗口化的自注意力机制,其可实现高效的推断。
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SGD 训练时,它主要呈现 T5 相对位置嵌入的注意力模式。同时,scratchpad 并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023
以关注 LLMs 为研究热点,本文从注意力角度对 RoPE 拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。
Jun, 2024
使用 RoPE 为基础的大型语言模型,通过调整基值和微调文本长度能够显著增强其外推性能,本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架,并解释了外推问题的起源和关键维度,同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。
Oct, 2023
提出了一种动态根据输入语境调整的上下文自适应位置编码方法,通过实验验证在真实世界数据集上改善了模型性能,提升了训练长度和长度泛化能力,同时保留了局部和反局部信息。
May, 2024
图转换器的区分能力与位置编码的选择紧密相关,本文旨在理解绝对位置编码和相对位置编码之间的关系,并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果,我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力,从而为位置编码的未来设计提供指导。
Feb, 2024