CAPE:用于长度推断的上下文自适应位置编码
这篇论文提出了一种增强型绝对位置嵌入 (CAPE) 的方法,使得 Transformer 神经网络在保持绝对位置嵌入简单和快速的同时,能够更好地推广到训练时未曾出现的更长序列,并在机器翻译等领域中获得更好的性能。
Jun, 2021
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SGD 训练时,它主要呈现 T5 相对位置嵌入的注意力模式。同时,scratchpad 并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
图转换器的区分能力与位置编码的选择紧密相关,本文旨在理解绝对位置编码和相对位置编码之间的关系,并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果,我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力,从而为位置编码的未来设计提供指导。
Feb, 2024
使用 Transformer 语言模型中的绝对位置嵌入会导致对相对位置信息的过度依赖,从而使得模型在句子位置信息被移位时性能显著下降,这表明了使用绝对位置嵌入所建模 “相对位置信息” 的功效需要重新审视。
Oct, 2022
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合,提出了一种新的多元时间序列分类(MTSC)模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明,优于最先进的卷积和 transformer-based 模型。
May, 2023
本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。
May, 2022
本文提出了一种条件位置编码方案 (CPE) 用于视觉 Transformers,通过在输入标记的本地邻域上生成并使其动态生成的位置编码,以解决模型寻找较长输入序列的问题,从而在图像分类任务中保持所需的平移不变性,并通过实验证明,CPVT 比使用学习位置编码的注意力地图拥有更好的性能表现。
Feb, 2021
本文介绍了相对位置编码的在图像识别中的研究,提出了基于 2D 图像的新型相对位置编码方法,即图像 RPE。经过实验验证,该方法可以显著提高 DeiT 和 DETR 的准确率,而不需要额外的超参数调节。
Jul, 2021
通过对无位置编码(NoPE)的长度泛化属性进行研究,我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列,但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系,并提出了一种参数高效的调整方法,通过搜索注意力头的最佳温度超参数,极大地扩展了 NoPE 的上下文大小。长序列语言建模、合成通行证检索任务和真实世界的长上下文任务的实验证明 NoPE 能够达到与最先进的长度泛化算法竞争的性能水平。源代码可公开访问。
Apr, 2024