扩展 LLMs 上下文窗口至 100 个样本

Jan, 2024

扩展 LLMs 上下文窗口至 100 个样本

Extending LLMs' Context Window with 100 Samples

Yikai Zhang, Junlong Li, Pengfei Liu

TL;DR本研究介绍了一种新颖的 RoPE 扩展方法，通过调整 RoPE 的基础频率和缩放注意力 logits，帮助 LLMs 高效适应更大的上下文窗口，并验证了这种方法在微调性能和稳健性方面的优越性。

Abstract

large language models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have so

large language models context window position encoding attention entropy fine-tuning performance

发现论文，激发创造

LongRoPE: 将 LLM 上下文窗口扩展到 200 万个标记以上

LargeRoPE 通过识别和利用位置插值中的非均匀性，引入渐进扩展策略和调整，将预训练语言模型的上下文窗口扩展到 2048k tokens，同时保持原始短上下文窗口的性能。

Feb, 2024

YaRN：大型语言模型的高效上下文窗口扩展

Rotary Position Embeddings (RoPE) 在 transformer-based 语言模型中被证明能够有效地编码位置信息，但这些模型在训练的序列长度之外无法推广。我们提出了 YaRN（另一种 RoPE 扩展方法），一种计算高效的方法，可扩展这些模型的上下文窗口，所需的令牌数量比先前的方法少 10 倍，训练步骤少 2.5 倍。通过使用 YaRN，我们展示了 LLaMA 模型可以有效地利用和推广到比它们原始的预训练所允许的上下文长度更长的上下文，同时还超过了先前的上下文窗口扩展的最新技术水平。此外，我们证明了 YaRN 具有超越微调数据集有限上下文的能力。我们发布了使用 64k 和 128k 上下文窗口用 YaRN 进行微调的 Llama 2 7B/13B 的检查点。

Aug, 2023

通过位置插值扩展大型语言模型的上下文窗口

本文介绍了一种名为 Position Interpolation 的方法，它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小，可以达到 32768，而且只需要最小限度的微调，同时在需要长上下文的各种任务中（包括密码检索、语言建模和长文档摘要等）展示了强大的实证结果。

Jun, 2023

理解长上下文 LLMs 的 RoPE 扩展：一个注意力视角

以关注 LLMs 为研究热点，本文从注意力角度对 RoPE 拓展进行了详细研究，通过实验证明：1）保持与预训练长度一致的注意力模式可提高拓展性能；2）较大的注意力不确定性导致检索错误；3）在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。

Jun, 2024

LongEmbed：扩展嵌入模型以用于长上下文检索

现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到 32k，而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用 RoPE 特定方法（如 NTK 和 SelfExtend）时，我们观察到显著的增强效果，表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集，并提供了 LongEmbed 基准测试。

Apr, 2024

基于 RoPE 的外推尺度定律

使用 RoPE 为基础的大型语言模型，通过调整基值和微调文本长度能够显著增强其外推性能，本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架，并解释了外推问题的起源和关键维度，同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。

Oct, 2023

共振 RoPE: 改善大型语言模型的上下文长度通用性

应对在大规模语言模型中的训练短测试长场景下，使用旋转位置嵌入（RoPE）时面临的挑战，本论文引入了共振 RoPE，一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化，显著提高模型性能而无需额外在线计算成本的新方法。另外，我们提出了 PosGen，这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准，旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明，在应用了共振 RoPE 之后，Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明，在上游语言建模任务和各种下游长文本应用中，应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后，性能更优秀。

Feb, 2024

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

RoPE 基于基准的上下文长度界限

在这篇论文中，我们发现位置嵌入在大型语言模型中起到了非常重要的作用。我们提出了长期衰减的新属性，并理论上和经验上揭示了上下文长度与位置嵌入基数之间的关系，为未来的长上下文训练提供了新的启示。

May, 2024

上下文专家混合增强 LLM 长上下文意识

本文提出了一种名为 “MoICE” 的新方法，通过在每个注意力头中引入路由器作为关键部件以及仅更新路由器进行训练的策略，来提高使用 RoPE 作为位置嵌入的 LLMs 的上下文感知能力和效率。在应用于 Llama 和 Mistral 等开源 LLMs 时，MoICE 在长上下文理解和生成的多个任务上超越了先前的方法，并保持了可观的推理效率。

Jun, 2024