Transformer 外推的探索

Jul, 2023

Exploring Transformer Extrapolation

Zhen Qin, Yiran Zhong, Hui Deng

TL;DR通过数学和经验分析研究，本文发现某些类型的相对位置编码（RPE）允许长度外推，并从中得出两种实践方法用于语言建模任务，同时提出了一种新的理论接收域（TRF）用于测量 RPE 的接收域，并在多个数据集上进行了广泛实验以验证这些发现的有效性。

Abstract

length extrapolation has attracted considerable attention recently since it allows transformers to be tested on longer sequences than those used in training. Previous research has shown that this property can be

length extrapolation relative positional encodings (rpes)transformers mathematical and empirical analysis theoretical receptive field (trf)

发现论文，激发创造

Transformer 长度外推：以位置编码为视角的调查

该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。

Dec, 2023

你的 Transformer 可能没有你期望的那么强大

本文针对基于相对位置编码的 Transformer 模型展开数学分析，证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络，但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验，证明了其在参数效率和性能上均超过了其他模型。

May, 2022

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

可长度推广的 Transformer

本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力，通过引入相对位置编码和块状因果注意力机制，可以有效提高模型的预测性能。

Dec, 2022

感受野对齐实现 Transformer 长度外推

研究了相对位置嵌入在语言模型上的应用，提出了基于对齐假设的自注意力机制，在训练过程中对齐输入，在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中，且由于隐式窗口化的自注意力机制，其可实现高效的推断。

Dec, 2022

位置编码对 Transformer 中长度推广的影响

本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响，发现在一系列的推理和数学任务中，NoPE 的表现比其它方法更为优秀，而且无需额外计算。理论上，NoPE 能够代表绝对和相对位置嵌入，但在使用 SGD 训练时，它主要呈现 T5 相对位置嵌入的注意力模式。同时，scratchpad 并不总是有助于解决长度泛化问题，其格式对模型的性能有很大的影响。总之，本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。

May, 2023

理解长上下文 LLMs 的 RoPE 扩展：一个注意力视角

以关注 LLMs 为研究热点，本文从注意力角度对 RoPE 拓展进行了详细研究，通过实验证明：1）保持与预训练长度一致的注意力模式可提高拓展性能；2）较大的注意力不确定性导致检索错误；3）在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。

Jun, 2024

基于 RoPE 的外推尺度定律

使用 RoPE 为基础的大型语言模型，通过调整基值和微调文本长度能够显著增强其外推性能，本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架，并解释了外推问题的起源和关键维度，同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。

Oct, 2023

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

通过位置编码比较图变换器

图转换器的区分能力与位置编码的选择紧密相关，本文旨在理解绝对位置编码和相对位置编码之间的关系，并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果，我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力，从而为位置编码的未来设计提供指导。

Feb, 2024