小小的改进可带来巨大效益:基于部分上下文的高效长上下文训练与推理
我们介绍了一系列支持高达32,768个令牌的有效上下文窗口的长上下文LLMs。通过从Llama 2开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于Llama 2取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了Llama的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
CacheGen通过将上下文的键值(KV)特征压缩成更紧凑的比特流表示形式,从而减少获取和处理上下文的延迟,并降低带宽使用量。在测试中,相对于处理长上下文的最近方法,CacheGen在保持类似的大型语言模型任务性能的同时,减少了带宽使用量3.7-4.3倍,减少了获取和处理上下文的总延迟2.7-3倍。
Oct, 2023
我们提出了一种名为E2-LLM的高效和极长扩展的大型语言模型方法,通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度,实验结果表明其在具有挑战性的长上下文任务中的有效性。
Jan, 2024
通过解锁多头注意力的潜力,我们提出了一个无需额外训练的框架 LongHeads,以增强大语言模型(LLMs)在处理长篇输入方面的能力,通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记,同时不同层的不同头可以共同处理更长的上下文,有效地扩展了现有模型的可用上下文窗口,展示了对增强长文本理解的潜力。
Feb, 2024
LargeRoPE通过识别和利用位置插值中的非均匀性,引入渐进扩展策略和调整,将预训练语言模型的上下文窗口扩展到2048k tokens,同时保持原始短上下文窗口的性能。
Feb, 2024
LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM),通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力,使用合成数据的方法显著提高了训练效率,并在各种长上下文基准测试中取得了出色的表现。
Jun, 2024
MEMO是一种用于大规模语言模型(LLM)训练的新型框架,通过细粒度的激活内存管理实现高效训练,包括依层次的激活重计算与交换机制以及内存复用优化,实现了极高的模型浮点计算的利用率,以及降低内存碎片化与通信开销,从而在仅使用8个A800 GPU上,在处理1百万序列长度的7B LLM时达到了52.30%的MFU。
Jul, 2024
该研究针对大型语言模型(LLM)在处理长上下文输入时资源消耗和延迟增加的问题,提出了一种新方法,以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌,研究开发了GemFilter算法,实现了比现有技术显著的速度提升(2.4倍)和30%的内存使用减少,具有广泛的适用性和可解释性。
Sep, 2024