Oct, 2023

HyPE:带有双曲偏差的相对位置编码的注意力

TL;DR通过引入超几何位置编码(HyPE),本研究提出一种新颖方法,利用超几何函数的特性来编码令牌的相对位置,以实现对令牌顺序的约束。该方法通过初步的连接操作和矩阵乘法实现相对距离的编码,间接地将偏置引入到 softmax 计算中,从而确保了与 FlashAttention-2 的兼容性,并支持对编码中任何潜在可学习参数的梯度反向传播。通过仔细的超参数选择,HyPE 可以近似于 ALiBi 的注意力偏置,从而在预训练期间具有良好的泛化能力,为超出预训练长度的上下文提供了有前途的泛化能力。对 HyPE 的实验评估可作为未来研究的一个方向。