XL3M：一种基于分段推理的无需训练的 LLM 长度扩展框架

May, 2024

XL3M：一种基于分段推理的无需训练的 LLM 长度扩展框架

XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference

Shengnan Wang, Youhui Bai, Lin Zhang, Pingyi Zhou, Shixiong Zhao...

TL;DR用 XL3M 框架，将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文，从而解决了大语言模型在处理超长文本时的泛化失败问题，并在推理任务中展现了卓越的性能。

Abstract

length generalization failure problem, namely the large language model (LLM) fails to generalize to texts longer than its maximum training length, greatly restricts the application of LLM in the scenarios with st

length generalization failure problem large language model xl3m framework context decomposition inference task

发现论文，激发创造

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

通过引入一种无需训练的基于内存的方法 InfLLM，使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。

Feb, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

长颈鹿：在 LLM 中扩展上下文长度的探险

现代大型语言模型（LLMs）通常使用固定的上下文长度进行训练，但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型，可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研，并介绍了一些新的设计，特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务（FreeFormQA，AlteredNumericQA 和 LongChat-Lines）以及困惑度进行了测试，并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法，并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究，我们发布了三个新的 13B 参数长上下文模型，名为 Giraffe：从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型，以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。

Aug, 2023

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

QuickLLaMA: 大型语言模型的查询感知推理加速

通过引入针对大型语言模型（LLMs）的查询感知推理（Q-LLM）系统，我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题，并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。

Jun, 2024

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024