长上下文扩展与大语言模型中的泛化的对照研究

Sep, 2024

长上下文扩展与大语言模型中的泛化的对照研究

A Controlled Study on Long Context Extension and Generalization in LLMs

Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren...

TL;DR本研究解决了在大语言模型中有效处理长上下文时存在的评估不确定性问题。通过实施标准化的评估协议，研究揭示了困惑度在长上下文任务中的重要性，并指出当前近似注意力方法的系统性低效，同时证实精确微调方法在其扩展范围内的有效性，推动了这一关键领域的研究发展。

Abstract

Broad textual understanding and in-context learning require Language Models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. How

发现论文，激发创造

简单的本地关注机制在长时序任务中保持竞争力

本研究通过大规模的控制实验，分析了不同的长距离注意力机制，研究发现，即使使用相同的预训练数据集与微调过程，采用简单的局部窗口注意力机制仍然能够胜任大部分任务，而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型，达到与Longformer半数的预训练计算相匹配的性能。

Dec, 2021

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达32,768个令牌的有效上下文窗口的长上下文LLMs。通过从Llama 2开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于Llama 2取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了Llama的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

LooGLE: 长文本语言模型是否理解长文本上下文?

基于LooGLE评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

大语言模型中上下文长度扩展技术的什么、为什么和如何 - 详细调查

大语言模型的出现在自然语言处理领域具有重大突破，但是它们在上下文长度的推断方面常常存在限制。了解和扩展大语言模型的上下文长度对于提升其在各种自然语言处理应用中的性能至关重要。本综述论文将深入探讨为什么扩展上下文长度以及先进技术可能带来的潜在变革。我们研究了扩展上下文长度所固有的挑战，并对研究人员采用的现有策略进行了有组织的概述。此外，我们讨论了评估上下文扩展技术的复杂性，并突出研究人员在该领域面临的开放性挑战。此外，我们探讨了研究界对于评估标准是否存在共识，并确定了需要进一步达成共识的领域。这份全面的综述旨在为研究人员提供有价值的资源，引导他们了解上下文长度扩展技术的技巧，并促进对这一不断发展领域的未来进展的讨论。

Jan, 2024

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

无穷Bench：将长上下文评估扩展至10万标记

大语言模型处理长上下文是许多实际应用的关键，有必要评估和比较它们在处理100K+上下文时的能力。本文提出了第一个超过100K标记平均数据长度的大语言模型基准测试，对处理长上下文的现有模型进行了评价，并提出了对处理长上下文的大语言模型行为的三个有趣分析。

Feb, 2024

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024