RoPE 基于基准的上下文长度界限
以关注 LLMs 为研究热点,本文从注意力角度对 RoPE 拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。
Jun, 2024
使用 RoPE 为基础的大型语言模型,通过调整基值和微调文本长度能够显著增强其外推性能,本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架,并解释了外推问题的起源和关键维度,同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。
Oct, 2023
应对在大规模语言模型中的训练短测试长场景下,使用旋转位置嵌入(RoPE)时面临的挑战,本论文引入了共振 RoPE,一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化,显著提高模型性能而无需额外在线计算成本的新方法。另外,我们提出了 PosGen,这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准,旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明,在应用了共振 RoPE 之后,Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明,在上游语言建模任务和各种下游长文本应用中,应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后,性能更优秀。
Feb, 2024
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
Jan, 2024
使用 3D 旋转位置编码(3D-RPE)在三维球上对象进行编码,具有可控的长期衰减和提高的位置分辨率,可应用于模拟长上下文和长序列任务中,特别在长上下文自然语言理解任务中表现出性能的提升。
Jun, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。
Apr, 2024
通过理论洞察和实证分析,我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响,发现这些挑战不仅存在于绝对位置编码,也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此,我们引入了一种新颖的解决方案,使用正交勒让德多项式的位置编码(PoPE)来克服现有方法的一些限制,并通过实验结果证明,PoPE 法可以提高基准 transformer 模型的性能,并显著加快模型的收敛速度。此外,我们还提出了关于位置编码的新理论视角,基于 PoPE 的出色性能。
Apr, 2024
LargeRoPE 通过识别和利用位置插值中的非均匀性,引入渐进扩展策略和调整,将预训练语言模型的上下文窗口扩展到 2048k tokens,同时保持原始短上下文窗口的性能。
Feb, 2024
本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为 RoPE 的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。
Apr, 2021
Rotary Position Embeddings (RoPE) 在 transformer-based 语言模型中被证明能够有效地编码位置信息,但这些模型在训练的序列长度之外无法推广。我们提出了 YaRN(另一种 RoPE 扩展方法),一种计算高效的方法,可扩展这些模型的上下文窗口,所需的令牌数量比先前的方法少 10 倍,训练步骤少 2.5 倍。通过使用 YaRN,我们展示了 LLaMA 模型可以有效地利用和推广到比它们原始的预训练所允许的上下文长度更长的上下文,同时还超过了先前的上下文窗口扩展的最新技术水平。此外,我们证明了 YaRN 具有超越微调数据集有限上下文的能力。我们发布了使用 64k 和 128k 上下文窗口用 YaRN 进行微调的 Llama 2 7B/13B 的检查点。
Aug, 2023