Mar, 2024

MEP:多核学习增强相对位置编码长度外推

TL;DR当预测序列长度超过训练期间观察到的长度时,transformer 的推断准确性会降低。本研究基于 ALiBi 方法,提出了一种新的相对位置编码方法 MEP,它结合了不同的核函数(如指数核函数和高斯核函数)通过加权平均组成一个偏置,应用于后 softmax 注意力分数,实现了长度推知挑战的解决。实验证明,我们方法的两个版本都达到了最先进的性能,在各种数据集上优于传统的无参数和参数化方法。