CAPE：用于长度推断的上下文自适应位置编码

May, 2024

CAPE：用于长度推断的上下文自适应位置编码

CAPE: Context-Adaptive Positional Encoding for Length Extrapolation

PDF

Chuanyang Zheng, Yihang Gao, Han Shi, Minbin Huang, Jingyao Li...

TL;DR提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

Abstract

positional encoding plays a crucial role in transformers, significantly impacting model performance and →

positional encoding transformers context-adaptive model performance length generalization

发现论文，激发创造

使用连续的增强位置嵌入编码相对位置的 CAPE

这篇论文提出了一种增强型绝对位置嵌入 (CAPE) 的方法，使得 Transformer 神经网络在保持绝对位置嵌入简单和快速的同时，能够更好地推广到训练时未曾出现的更长序列，并在机器翻译等领域中获得更好的性能。

Jun, 2021

位置编码对 Transformer 中长度推广的影响

本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响，发现在一系列的推理和数学任务中，NoPE 的表现比其它方法更为优秀，而且无需额外计算。理论上，NoPE 能够代表绝对和相对位置嵌入，但在使用 SGD 训练时，它主要呈现 T5 相对位置嵌入的注意力模式。同时，scratchpad 并不总是有助于解决长度泛化问题，其格式对模型的性能有很大的影响。总之，本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。

May, 2023

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

通过位置编码比较图变换器

图转换器的区分能力与位置编码的选择紧密相关，本文旨在理解绝对位置编码和相对位置编码之间的关系，并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果，我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力，从而为位置编码的未来设计提供指导。

Feb, 2024

绝对位置嵌入的奇妙案例

使用 Transformer 语言模型中的绝对位置嵌入会导致对相对位置信息的过度依赖，从而使得模型在句子位置信息被移位时性能显著下降，这表明了使用绝对位置嵌入所建模 “相对位置信息” 的功效需要重新审视。

Oct, 2022

改进 transformer 的位置编码以用于多元时间序列分类

研究了 transformers 在时间序列数据中应用时所需的位置编码方法，提出了一种新的绝对位置编码方法，称为时间绝对位置编码（tAPE）；提出了一种高效的相对位置编码实现方法（eRPE），并将 tAPE/eRPE 与卷积输入编码相结合，提出了一种新的多元时间序列分类（MTSC）模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明，优于最先进的卷积和 transformer-based 模型。

May, 2023

你的 Transformer 可能没有你期望的那么强大

本文针对基于相对位置编码的 Transformer 模型展开数学分析，证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络，但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验，证明了其在参数效率和性能上均超过了其他模型。

May, 2022

视觉 Transformer 的条件位置编码

本文提出了一种条件位置编码方案 (CPE) 用于视觉 Transformers，通过在输入标记的本地邻域上生成并使其动态生成的位置编码，以解决模型寻找较长输入序列的问题，从而在图像分类任务中保持所需的平移不变性，并通过实验证明，CPVT 比使用学习位置编码的注意力地图拥有更好的性能表现。

Feb, 2021

重新思考和改进相对位置编码在视觉变换器中的应用

本文介绍了相对位置编码的在图像识别中的研究，提出了基于 2D 图像的新型相对位置编码方法，即图像 RPE。经过实验验证，该方法可以显著提高 DeiT 和 DETR 的准确率，而不需要额外的超参数调节。

Jul, 2021

无位置编码的因果 Transformer 的长度概化

通过对无位置编码（NoPE）的长度泛化属性进行研究，我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列，但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系，并提出了一种参数高效的调整方法，通过搜索注意力头的最佳温度超参数，极大地扩展了 NoPE 的上下文大小。长序列语言建模、合成通行证检索任务和真实世界的长上下文任务的实验证明 NoPE 能够达到与最先进的长度泛化算法竞争的性能水平。源代码可公开访问。

Apr, 2024