Apr, 2024

无位置编码的因果 Transformer 的长度概化

TL;DR通过对无位置编码(NoPE)的长度泛化属性进行研究,我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列,但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系,并提出了一种参数高效的调整方法,通过搜索注意力头的最佳温度超参数,极大地扩展了 NoPE 的上下文大小。长序列语言建模、合成通行证检索任务和真实世界的长上下文任务的实验证明 NoPE 能够达到与最先进的长度泛化算法竞争的性能水平。源代码可公开访问。