Feb, 2024

共振 RoPE: 改善大型语言模型的上下文长度通用性

TL;DR应对在大规模语言模型中的训练短测试长场景下,使用旋转位置嵌入(RoPE)时面临的挑战,本论文引入了共振 RoPE,一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化,显著提高模型性能而无需额外在线计算成本的新方法。另外,我们提出了 PosGen,这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准,旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明,在应用了共振 RoPE 之后,Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明,在上游语言建模任务和各种下游长文本应用中,应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后,性能更优秀。