ICMLMay, 2023

长度通用的单调位置注意力

TL;DR本篇研究中,我们探讨了在序列到序列的网络中,利用基于位置的交叉注意力实现长度泛化的不同方法,并显示了插值原始编码和反向编码表示结合相对注意力的简单方法可以实现几乎完美的长度泛化