KERPLE:用于长度外推的核化相对位置嵌入
使用快速傅里叶变换(FFT)可以有效加速具有相对位置编码(RPE)的 Transformer 模型中的注意力计算,并且适当使用相对位置编码可以缓解基准核化注意力的训练不稳定性问题。
Jun, 2021
当预测序列长度超过训练期间观察到的长度时,transformer 的推断准确性会降低。本研究基于 ALiBi 方法,提出了一种新的相对位置编码方法 MEP,它结合了不同的核函数(如指数核函数和高斯核函数)通过加权平均组成一个偏置,应用于后 softmax 注意力分数,实现了长度推知挑战的解决。实验证明,我们方法的两个版本都达到了最先进的性能,在各种数据集上优于传统的无参数和参数化方法。
Mar, 2024
提出了一种动态根据输入语境调整的上下文自适应位置编码方法,通过实验验证在真实世界数据集上改善了模型性能,提升了训练长度和长度泛化能力,同时保留了局部和反局部信息。
May, 2024
本文介绍了相对位置编码的在图像识别中的研究,提出了基于 2D 图像的新型相对位置编码方法,即图像 RPE。经过实验验证,该方法可以显著提高 DeiT 和 DETR 的准确率,而不需要额外的超参数调节。
Jul, 2021
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。
May, 2022
通过理论洞察和实证分析,我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响,发现这些挑战不仅存在于绝对位置编码,也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此,我们引入了一种新颖的解决方案,使用正交勒让德多项式的位置编码(PoPE)来克服现有方法的一些限制,并通过实验结果证明,PoPE 法可以提高基准 transformer 模型的性能,并显著加快模型的收敛速度。此外,我们还提出了关于位置编码的新理论视角,基于 PoPE 的出色性能。
Apr, 2024
通过数学和经验分析研究,本文发现某些类型的相对位置编码(RPE)允许长度外推,并从中得出两种实践方法用于语言建模任务,同时提出了一种新的理论接收域(TRF)用于测量 RPE 的接收域,并在多个数据集上进行了广泛实验以验证这些发现的有效性。
Jul, 2023
通过单元转换,在现有线性相对位置编码方法的基础上,提出了家族化的线性相对位置编码算法,实现了保持线性空间 - 时间复杂性的新相对位置编码方法框架,并在语言建模、文本分类和图像分类等各种应用中表现出了最先进的性能,强调了一个用于设计线性变压器相关位置编码方法的普适范例。
Jul, 2023
以关注 LLMs 为研究热点,本文从注意力角度对 RoPE 拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。
Jun, 2024