PoSE: 通过位置跳跃训练实现 LLMs 的高效上下文窗口扩展

Sep, 2023

PoSE: 通过位置跳跃训练实现 LLMs 的高效上下文窗口扩展

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

Dawei Zhu, Nan Yang, Liang Wang, Yifan Song, Wenhao Wu...

TL;DR本文介绍了 Positional Skip-wisE（PoSE）训练方法，用于将大型语言模型（LLMs）高效地适应于极长的上下文窗口。通过在训练过程中使用具有操作位置索引的固定上下文窗口来模拟长输入，PoSE 将训练长度与目标上下文窗口大小分离。实验证明，与在完整长度上进行微调相比，PoSE 大大降低了内存和时间开销，并对性能影响很小。利用这一优势，我们成功将 LLaMA 模型扩展到了 128k 标记。此外，我们在实验中证实了 PoSE 与所有基于 RoPE 的 LLMs 和各种位置插值策略是兼容的。值得注意的是，通过解耦微调长度和目标上下文窗口，PoSE 在理论上可以无限扩展上下文窗口，仅受推理内存使用的限制。随着高效推理技术的不断发展，我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的潜力。

Abstract

In this paper, we introduce Positional Skip-wisE (pose) training for efficient adaptation of large language models~(LLMs) to extremely lon

positional skip-wise training language models long context windows adaptation pose

发现论文，激发创造

通过位置插值扩展大型语言模型的上下文窗口

本文介绍了一种名为 Position Interpolation 的方法，它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小，可以达到 32768，而且只需要最小限度的微调，同时在需要长上下文的各种任务中（包括密码检索、语言建模和长文档摘要等）展示了强大的实证结果。

Jun, 2023

LongRoPE: 将 LLM 上下文窗口扩展到 200 万个标记以上

LargeRoPE 通过识别和利用位置插值中的非均匀性，引入渐进扩展策略和调整，将预训练语言模型的上下文窗口扩展到 2048k tokens，同时保持原始短上下文窗口的性能。

Feb, 2024

扩展 LLMs 上下文窗口至 100 个样本

本研究介绍了一种新颖的 RoPE 扩展方法，通过调整 RoPE 的基础频率和缩放注意力 logits，帮助 LLMs 高效适应更大的上下文窗口，并验证了这种方法在微调性能和稳健性方面的优越性。

Jan, 2024

位于中间：通过即插即用位置编码，语言模型更好地使用长上下文

本文介绍了一种名为多尺度位置编码（Ms-PoE）的简单而有效的插件式方法，用于增强大型语言模型（LLMs）处理位于上下文中部的相关信息的能力，并通过广泛的实验证明了该方法的有效性。

Mar, 2024

通过分解位置向量探索大型语言模型的上下文窗口

通过分析位置向量对注意力的形成和影响，我们设计了两种无需训练的上下文窗口扩展方法，即位置向量替换和注意力窗口扩展。实验结果表明，我们的方法可以有效地扩展上下文窗口的长度。

May, 2024

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

用短指令和合成位置进行长上下文对齐

该研究论文介绍了一种名为 Step-Skipping Alignment 的技术，为大型语言模型（LLMs）增强了长上下文能力，通过在指令 - 跟随样本中策略性地插入跳过的位置来合成长程依赖，从而有效扩展上下文，并通过在不同上下文窗口大小的基础模型上进行广泛实验来验证其有效性。

May, 2024

减少 LLM 中的位置偏倚的定位感知参数高效微调方法

通过开展广泛的实验证明，我们提出的 Position-Aware Parameter Efficient Fine-Tuning 方法能够减少大型语言模型中的位置偏差，从而提高处理长上下文序列的效果，并改进对需要从外部检索知识的各种任务的表现。

Apr, 2024

LongEmbed：扩展嵌入模型以用于长上下文检索

现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到 32k，而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用 RoPE 特定方法（如 NTK 和 SelfExtend）时，我们观察到显著的增强效果，表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集，并提供了 LongEmbed 基准测试。

Apr, 2024