并行上下文编码的长文本语言建模

Feb, 2024

并行上下文编码的长文本语言建模

Long-Context Language Modeling with Parallel Context Encoding

Howard Yen, Tianyu Gao, Danqi Chen

TL;DR通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Abstract

Extending large language models (LLMs) to process longer inputs is crucial for numerous applications. However, the considerable computational cost of transformers, coupled with limited generalization of positional encoding, restricts the size of their →

large language models context window cepe cross-attention instruction-tuned models

发现论文，激发创造

CLEX: 大型语言模型的连续长度外推

建议一种基于连续长度外推（CLEX）的 Transformer-based Large Language Models (LLMs)，可将 context window 扩展到训练序列长度的 4 倍或 8 倍，并在实际任务中表现出竞争性性能。

Oct, 2023

位于中间：通过即插即用位置编码，语言模型更好地使用长上下文

本文介绍了一种名为多尺度位置编码（Ms-PoE）的简单而有效的插件式方法，用于增强大型语言模型（LLMs）处理位于上下文中部的相关信息的能力，并通过广泛的实验证明了该方法的有效性。

Mar, 2024

扩展 LLMs 上下文窗口至 100 个样本

本研究介绍了一种新颖的 RoPE 扩展方法，通过调整 RoPE 的基础频率和缩放注意力 logits，帮助 LLMs 高效适应更大的上下文窗口，并验证了这种方法在微调性能和稳健性方面的优越性。

Jan, 2024

LongEmbed：扩展嵌入模型以用于长上下文检索

现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到 32k，而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用 RoPE 特定方法（如 NTK 和 SelfExtend）时，我们观察到显著的增强效果，表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集，并提供了 LongEmbed 基准测试。

Apr, 2024

并行上下文窗口提高大型语言模型的上下文学习能力

本文提出了一种名为 Parallel Context Windows (PCW) 的方法，可缓解任何现成的 LLM 的上下文窗口限制，该方法通过将长上下文分成适合于模型的块（“窗口”）来限制注意机制的应用范围，并在窗口之间重用位置嵌入。我们在模型的大小范围内测试了 PCW 方法，并为具有不同输入和输出空间的任务展示了实质性的改进。该结果为研究将 Parallel Context Windows 应用于其他需要长文本序列的设置提供了动机。

Dec, 2022

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

LongRoPE: 将 LLM 上下文窗口扩展到 200 万个标记以上

LargeRoPE 通过识别和利用位置插值中的非均匀性，引入渐进扩展策略和调整，将预训练语言模型的上下文窗口扩展到 2048k tokens，同时保持原始短上下文窗口的性能。

Feb, 2024

大型语言模型中上下文压缩的上下文自编码器

本文提出了一种上下文自动编码器（ICAE），用于大型语言模型中的上下文压缩，并且证实了 ICAE 的潜在推广价值。

Jul, 2023

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024