高效地使用8个GPU在1百万序列长度上训练70亿层次语言模型

Jul, 2024

高效地使用8个GPU在1百万序列长度上训练70亿层次语言模型

Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs

Pinxue Zhao, Hailin Zhang, Fangcheng Fu, Xiaonan Nie, Qibin Liu...

TL;DRMEMO是一种用于大规模语言模型（LLM）训练的新型框架，通过细粒度的激活内存管理实现高效训练，包括依层次的激活重计算与交换机制以及内存复用优化，实现了极高的模型浮点计算的利用率，以及降低内存碎片化与通信开销，从而在仅使用8个A800 GPU上，在处理1百万序列长度的7B LLM时达到了52.30％的MFU。

Abstract

Nowadays, large language models (LLMs) have been trained using extended context lengths to foster more creative applications. However, long context training poses great challenges considering the constraint of GPU memory. It not only leads to substantial activation memory consumption d

发现论文，激发创造

DeepSpeed Ulysses：极长序列Transformer模型训练的系统优化

DeepSpeed-Ulysses是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses在4倍较长的序列长度下比现有方法提供了2.5倍的训练速度。

Sep, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在DRAM之外，以满足超过DRAM容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的“窗口化”与利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU和GPU分别实现4-5倍和20-25倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的LLMs推理铺平了道路。

Dec, 2023

从4K到400K：用激活信标扩展LLM的上下文

利用Activation Beacon插件来压缩语言模型的原始激活，从而使其在有限上下文窗口的情况下能感知更长的上下文，提高LLM的长文本处理能力。

Jan, 2024

GaLore: 通过梯度低秩投影实现的内存高效LLM训练

通过提出Gradient Low-Rank Projection (GaLore)的训练策略，本研究在大规模语言模型的预训练过程中实现全参数学习，并以更高的内存效率减少了高达65.5%的优化器状态内存使用，同时在多项任务上保持了效率和性能，展示出在具有24GB内存的消费级GPU上（例如NVIDIA RTX 4090）进行7B模型的预训练的可行性。

Mar, 2024

ProTrain: 基于记忆感知技术的高效LLM训练

ProTrain通过协调内存、计算和IO，采用分块模型状态管理和块状激活管理，在不改变训练算法的情况下，通过内存感知的运行时分析器智能平衡内存使用和性能，相较于其他最佳训练系统，ProTrain提高了1.43倍至2.71倍的训练吞吐量。

Jun, 2024

MINI-LLM: 大语言模型的内存高效的结构化剪枝

本文提出了一种Memory-effIcieNt结构化剪枝方法(MINI-LLM)，通过整合大小、激活和梯度等多个指标，利用特征图敏感性进行剪枝，从而有效地降低了GPU内存的占用，并在多个下游任务上展现了优异的性能。

Jul, 2024

更大小批量的内存高效训练大型语言模型

本研究解决了在有限GPU内存条件下训练大型语言模型（LLMs）时，如何利用较小的小批量来模拟更大小批量训练动态的问题。我们提出了一种子模最大化的方法，以选择小批量样本，并展示了该方法在内存需求上可减少2倍，训练速度可提升1.3倍的优势，具有重要的实际应用价值。

Jul, 2024

发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

该研究针对大型语言模型（LLM）在处理长上下文输入时资源消耗和延迟增加的问题，提出了一种新方法，以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌，研究开发了GemFilter算法，实现了比现有技术显著的速度提升（2.4倍）和30%的内存使用减少，具有广泛的适用性和可解释性。

Sep, 2024

小小的改进可带来巨大效益：基于部分上下文的高效长上下文训练与推理

本研究解决了训练和服务长上下文大语言模型（LLMs）时的高开销问题。提出的LongGen方法将上下文长度扩展与GPU友好的KV缓存减少架构相结合，显著提高了长上下文的表现和训练效率，展现了在128K长上下文下的训练加速和内存节省的显著成果。

Oct, 2024