扩展 Llama-3 上下文十倍于一夜之间

Apr, 2024

扩展 Llama-3 上下文十倍于一夜之间

Extending Llama-3's Context Ten-Fold Overnight

Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian...

TL;DR通过 QLoRA 的微调，我们将 LLama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练周期非常高效，在一台 8xA800（80G）GPU 机器上仅需 8 小时。生成的模型在广泛的评估任务中表现出优越性能，如 NIHS、主题检索和长上下文语言理解；同时，它还很好地保留了短上下文的原始能力。这种显著的上下文扩展主要归功于由 GPT-4 生成的仅 3.5K 个合成训练样本，这表明 LLMs 具有潜在的（尽管在很大程度上被低估的）扩展原始上下文长度的能力。事实上，通过提供更多计算资源，上下文长度可以进一步扩展到 80K 之外。因此，团队将公开发布所有资源（包括数据、模型、数据生成流水线、训练代码），以便促进来自社区的未来研究：https://github.com/FlagOpen/FlagEmbedding。

Abstract

We extend the context length of llama-3-8b-instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, wh

context length llama-3-8b-instruct fine-tuning evaluation tasks long-context language understanding

发现论文，激发创造

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

LongQLoRA：扩展大型语言模型上下文长度的高效有效方法

LongQLoRA 是一种高效且有效的方法，可以使用较少的训练资源扩展大语言模型的上下文长度。

Nov, 2023

LongLoRA: 长文本大语言模型的高效微调

LongLoRA 是一种高效的微调方法，通过有限的计算成本扩展了预训练大型语言模型（LLMs）的上下文大小。

Sep, 2023

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

随着文本增加，需求加大：推理时间训练有助于长文本生成

通过在长文本生成过程中使用临时的 Lora 模块来嵌入信息，我们的提出的方法 Temp-Lora 有效地保留上下文知识，提高了生成质量，同时降低了计算成本。

Jan, 2024

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

LongEmbed：扩展嵌入模型以用于长上下文检索

现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到 32k，而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用 RoPE 特定方法（如 NTK 和 SelfExtend）时，我们观察到显著的增强效果，表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集，并提供了 LongEmbed 基准测试。

Apr, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

大型语言模型的免训练长篇背景文本扩展

通过使用 Dual Chunk Attention (DCA) 来实现对超过 100k 个 token 的上下文窗口的支持，从而达到与有限调优模型相媲美，甚至更好性能的 70B 模型。

Feb, 2024