并行上下文窗口提高大型语言模型的上下文学习能力

Dec, 2022

并行上下文窗口提高大型语言模型的上下文学习能力

Parallel Context Windows Improve In-Context Learning of Large Language Models

Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Omri Abend...

TL;DR本文提出了一种名为 Parallel Context Windows (PCW) 的方法，可缓解任何现成的 LLM 的上下文窗口限制，该方法通过将长上下文分成适合于模型的块（“窗口”）来限制注意机制的应用范围，并在窗口之间重用位置嵌入。我们在模型的大小范围内测试了 PCW 方法，并为具有不同输入和输出空间的任务展示了实质性的改进。该结果为研究将 Parallel Context Windows 应用于其他需要长文本序列的设置提供了动机。

Abstract

For applications that require processing large amounts of text at inference time, large language models (LLMs) are handicapped by their limited context windows, which are typically 2048 tokens. in-context learning

large language models context windows in-context learning parallel context windows off-the-shelf models

发现论文，激发创造

重访并行上下文窗口：一种令人沮丧的简单替代方法和思维链恶化

通过评估 Parallel Context Windows (PCW) 的实际应用，我们发现这种基于并行集成模式和语言模型的计算方法存在一些局限性，如缺失有效的基础算法、在复杂的推理任务中效果下降等，建议未来在此方向上进行更多的研究。

May, 2023

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

重温上下文窗口：用于跨语言词嵌入的方法

本研究系统评估了使用不同上下文窗口大小训练的跨语言词嵌入在多种语言、领域和任务中的性能，并发现增加源和目标词窗口大小可以提高双语词汇归纳的性能，尤其是对于频繁的名词。

Apr, 2020

LongRoPE: 将 LLM 上下文窗口扩展到 200 万个标记以上

LargeRoPE 通过识别和利用位置插值中的非均匀性，引入渐进扩展策略和调整，将预训练语言模型的上下文窗口扩展到 2048k tokens，同时保持原始短上下文窗口的性能。

Feb, 2024

并行上下文编码的长文本语言建模

通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Feb, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023