部署长上下文变压器的挑战：理论峰值性能分析

May, 2024

部署长上下文变压器的挑战：理论峰值性能分析

Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis

Yao Fu

TL;DR为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。

Abstract

transformer-based long context generative models power emerging AI applications like hour-long video understanding and project-level coding agent. Deploying long context transformers (e.g., 100K to 10M tokens) is prohibitively expensive compared to short context (e.g., 4K tokens) model

transformer-based long context generative models efficiency challenges large size of the kv cache deployment challenges inference cost

发现论文，激发创造

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

使用 LoCo 和 M2-BERT 进行长上下文检索模型的基准测试和构建

为了解决长文本检索中的问题，研究人员引入了 LoCoV1 任务基准和 M2-BERT 检索编码器，通过预训练和微调方法，实现了对长文本的高效检索能力。

Feb, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

使用多个演示示例的上下文学习

本研究提出了基于高效 Transformer 机制的长程语言模型 EVALM，采用 8k 批处理行的方式进行训练，并可测试长度达到 256k 的上下文，实验结果显示，EVALM 平均精度比现有 PLMs 高 4.1％，而且在上下文学习和指令调整中都能有效地缩放所使用的样例大小。

Feb, 2023