你的 Transformer 可能没有你期望的那么强大

May, 2022

你的 Transformer 可能没有你期望的那么强大

Your Transformer May Not be as Powerful as You Expect

Shengjie Luo, Shanda Li, Shuxin Zheng, Tie-Yan Liu, Liwei Wang...

TL;DR本文针对基于相对位置编码的 Transformer 模型展开数学分析，证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络，但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验，证明了其在参数效率和性能上均超过了其他模型。

Abstract

relative positional encoding (RPE), which encodes the relative distance between any pair of tokens, is one of the most successful modifications to the original Transformer. As far as we know, theoretical understanding of the RPE-based →

relative positional encoding transformers universal function approximation softmax attention urpe

发现论文，激发创造

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

重新思考和改进相对位置编码在视觉变换器中的应用

本文介绍了相对位置编码的在图像识别中的研究，提出了基于 2D 图像的新型相对位置编码方法，即图像 RPE。经过实验验证，该方法可以显著提高 DeiT 和 DETR 的准确率，而不需要额外的超参数调节。

Jul, 2021

稳定、快速和准确：基于核函数的相对位置编码的注意力机制

使用快速傅里叶变换（FFT）可以有效加速具有相对位置编码（RPE）的 Transformer 模型中的注意力计算，并且适当使用相对位置编码可以缓解基准核化注意力的训练不稳定性问题。

Jun, 2021

通过位置编码比较图变换器

图转换器的区分能力与位置编码的选择紧密相关，本文旨在理解绝对位置编码和相对位置编码之间的关系，并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果，我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力，从而为位置编码的未来设计提供指导。

Feb, 2024

Transformer 外推的探索

通过数学和经验分析研究，本文发现某些类型的相对位置编码（RPE）允许长度外推，并从中得出两种实践方法用于语言建模任务，同时提出了一种新的理论接收域（TRF）用于测量 RPE 的接收域，并在多个数据集上进行了广泛实验以验证这些发现的有效性。

Jul, 2023

HyPE：带有双曲偏差的相对位置编码的注意力

通过引入超几何位置编码（HyPE），本研究提出一种新颖方法，利用超几何函数的特性来编码令牌的相对位置，以实现对令牌顺序的约束。该方法通过初步的连接操作和矩阵乘法实现相对距离的编码，间接地将偏置引入到 softmax 计算中，从而确保了与 FlashAttention-2 的兼容性，并支持对编码中任何潜在可学习参数的梯度反向传播。通过仔细的超参数选择，HyPE 可以近似于 ALiBi 的注意力偏置，从而在预训练期间具有良好的泛化能力，为超出预训练长度的上下文提供了有前途的泛化能力。对 HyPE 的实验评估可作为未来研究的一个方向。

Oct, 2023

PoPE：基于勒让德正交多项式的位置编码在大型语言模型中的应用

通过理论洞察和实证分析，我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响，发现这些挑战不仅存在于绝对位置编码，也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此，我们引入了一种新颖的解决方案，使用正交勒让德多项式的位置编码（PoPE）来克服现有方法的一些限制，并通过实验结果证明，PoPE 法可以提高基准 transformer 模型的性能，并显著加快模型的收敛速度。此外，我们还提出了关于位置编码的新理论视角，基于 PoPE 的出色性能。

Apr, 2024

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

StableMask：在仅使用解码器的 Transformer 中优化因果掩码

通过改进因果掩码的方法，提出了 StableMask，解决了 decoder-only Transformer 架构中的限制，并在语言模型中得到了显著的增强。

Feb, 2024

RoFormer: 带旋转位置嵌入的增强 Transformer

本篇论文研究了在语言模型中如何整合位置信息，并提出了一种名为 RoPE 的方法，它可以将位置信息编码为旋转矩阵，并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明，RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。

Apr, 2021