May, 2024

RoPE 基于基准的上下文长度界限

TL;DR在这篇论文中,我们发现位置嵌入在大型语言模型中起到了非常重要的作用。我们提出了长期衰减的新属性,并理论上和经验上揭示了上下文长度与位置嵌入基数之间的关系,为未来的长上下文训练提供了新的启示。