小小的改进可带来巨大效益：基于部分上下文的高效长上下文训练与推理

Oct, 2024

小小的改进可带来巨大效益：基于部分上下文的高效长上下文训练与推理

A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts

Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng

TL;DR本研究解决了训练和服务长上下文大语言模型（LLMs）时的高开销问题。提出的LongGen方法将上下文长度扩展与GPU友好的KV缓存减少架构相结合，显著提高了长上下文的表现和训练效率，展现了在128K长上下文下的训练加速和内存节省的显著成果。

Abstract

Training and serving long-context Large Language Models (LLMs) incurs substantial overhead. To address this, two critical steps are often required: a pretrained LLM typically undergoes a separate stage for context length extension by training on long-context data, followed by architect

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为LongMem的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

LongLoRA: 长文本大语言模型的高效微调

LongLoRA是一种高效的微调方法，通过有限的计算成本扩展了预训练大型语言模型（LLMs）的上下文大小。

Sep, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达32,768个令牌的有效上下文窗口的长上下文LLMs。通过从Llama 2开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于Llama 2取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了Llama的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

CacheGen：面向语言模型应用的快速上下文加载

CacheGen通过将上下文的键值（KV）特征压缩成更紧凑的比特流表示形式，从而减少获取和处理上下文的延迟，并降低带宽使用量。在测试中，相对于处理长上下文的最近方法，CacheGen在保持类似的大型语言模型任务性能的同时，减少了带宽使用量3.7-4.3倍，减少了获取和处理上下文的总延迟2.7-3倍。

Oct, 2023

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为E2-LLM的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

LongHeads：多头注意力暗地里是一个长上下文处理器

通过解锁多头注意力的潜力，我们提出了一个无需额外训练的框架 LongHeads，以增强大语言模型（LLMs）在处理长篇输入方面的能力，通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记，同时不同层的不同头可以共同处理更长的上下文，有效地扩展了现有模型的可用上下文窗口，展示了对增强长文本理解的潜力。

Feb, 2024

LongRoPE: 将LLM上下文窗口扩展到200万个标记以上

LargeRoPE通过识别和利用位置插值中的非均匀性，引入渐进扩展策略和调整，将预训练语言模型的上下文窗口扩展到2048k tokens，同时保持原始短上下文窗口的性能。

Feb, 2024

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

高效地使用8个GPU在1百万序列长度上训练70亿层次语言模型

MEMO是一种用于大规模语言模型（LLM）训练的新型框架，通过细粒度的激活内存管理实现高效训练，包括依层次的激活重计算与交换机制以及内存复用优化，实现了极高的模型浮点计算的利用率，以及降低内存碎片化与通信开销，从而在仅使用8个A800 GPU上，在处理1百万序列长度的7B LLM时达到了52.30％的MFU。

Jul, 2024

发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

该研究针对大型语言模型（LLM）在处理长上下文输入时资源消耗和延迟增加的问题，提出了一种新方法，以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌，研究开发了GemFilter算法，实现了比现有技术显著的速度提升（2.4倍）和30%的内存使用减少，具有广泛的适用性和可解释性。

Sep, 2024