位于中间:通过即插即用位置编码,语言模型更好地使用长上下文
本文研究了大型语言模型中的位置偏见问题,发现注意力权重和因果性注意掩码是位置偏见的微观表现,提出了通过调整位置隐状态来减轻位置偏见的方法,并通过在多个任务上进行实验验证了该方法的有效性和普适性。
Jun, 2024
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
Jan, 2024
本文介绍了 Positional Skip-wisE(PoSE)训练方法,用于将大型语言模型(LLMs)高效地适应于极长的上下文窗口。通过在训练过程中使用具有操作位置索引的固定上下文窗口来模拟长输入,PoSE 将训练长度与目标上下文窗口大小分离。实验证明,与在完整长度上进行微调相比,PoSE 大大降低了内存和时间开销,并对性能影响很小。利用这一优势,我们成功将 LLaMA 模型扩展到了 128k 标记。此外,我们在实验中证实了 PoSE 与所有基于 RoPE 的 LLMs 和各种位置插值策略是兼容的。值得注意的是,通过解耦微调长度和目标上下文窗口,PoSE 在理论上可以无限扩展上下文窗口,仅受推理内存使用的限制。随着高效推理技术的不断发展,我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的潜力。
Sep, 2023
通过开展广泛的实验证明,我们提出的 Position-Aware Parameter Efficient Fine-Tuning 方法能够减少大型语言模型中的位置偏差,从而提高处理长上下文序列的效果,并改进对需要从外部检索知识的各种任务的表现。
Apr, 2024
提出了一种新的位置编码方法:上下文位置编码 (CoPE),使得位置可以被上下文条件化,可以实现更一般的位置指定,例如参考第 $i$ 个特定词、名词或句子。该方法能够解决选择性复制、计数和翻转任务,并提高语言建模和编码任务的困惑度。
May, 2024
通过引入上下文扩展并行编码(CEPE)框架,可以将现有的仅解码的大型语言模型(LLMs)的上下文窗口扩展,使其能够更有效地处理长输入并且在检索增强应用中表现优异。
Feb, 2024
本文提出了一种名为 “MoICE” 的新方法,通过在每个注意力头中引入路由器作为关键部件以及仅更新路由器进行训练的策略,来提高使用 RoPE 作为位置嵌入的 LLMs 的上下文感知能力和效率。在应用于 Llama 和 Mistral 等开源 LLMs 时,MoICE 在长上下文理解和生成的多个任务上超越了先前的方法,并保持了可观的推理效率。
Jun, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。
Apr, 2024
本文介绍了一种名为 Position Interpolation 的方法,它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小,可以达到 32768,而且只需要最小限度的微调,同时在需要长上下文的各种任务中(包括密码检索、语言建模和长文档摘要等)展示了强大的实证结果。
Jun, 2023
应对在大规模语言模型中的训练短测试长场景下,使用旋转位置嵌入(RoPE)时面临的挑战,本论文引入了共振 RoPE,一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化,显著提高模型性能而无需额外在线计算成本的新方法。另外,我们提出了 PosGen,这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准,旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明,在应用了共振 RoPE 之后,Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明,在上游语言建模任务和各种下游长文本应用中,应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后,性能更优秀。
Feb, 2024