高效大规模语言模型训练的记忆和通讯成本重新思考

Oct, 2023

高效大规模语言模型训练的记忆和通讯成本重新思考

Rethinking Memory and Communication Cost for Efficient Large Language Model Training

Chan Wu, Hanxiao Zhang, Lin Ju, Jinjing Huang, Youshao Xiao...

TL;DR大尺寸建模训练，延迟均衡化，部分冗余优化器，分层重叠环，训练效率

Abstract

As model sizes and training datasets continue to increase, large-scale model training frameworks reduce memory consumption by various sharding techniques. However, the huge communication overhead reduces the training efficiency, especially in public cloud environments with varying netw

large-scale model training memory-communication balanced partial redundancy optimizer hierarchical overlapping ring training efficiency

发现论文，激发创造

ZeRO: 面向训练万亿参数模型的内存优化

本文描述了一种名为 ZeRO 的内存优化算法，可以有效地缩短大型深度学习模型的训练时间，并提高模型大小和通讯效率。该算法在 400 个 GPU 上训练了超过 1000 亿参数的大型模型，提供了比现有技术更高的性能和可用性。

Oct, 2019

ZeRO++：巨型模型训练的极高效集体通信

本文介绍了三种通信量减少技术，目标是针对 ZeRO 中的每个通信集合，共同提高 ZeRO ++ 的有效吞吐量，减少 ZeRO 的通信量，并允许在 384 个 GPU 规模下提高最多 2.16 倍的吞吐量。

Jun, 2023

CO2：高效分布式训练与完全通信 - 计算重叠

基于限制带宽的集群，我们提出了一种名为 CO2 的新方法，通过引入局部更新和异步通信实现分布式数据并行训练的完全重叠，从而实现大规模训练的高可扩展性。我们还提出了降低收敛性和训练稳定性的过时惩罚和外部动能裁剪技术。通过大量实验验证了 CO2 在计算机视觉和自然语言处理领域的各种任务上的收敛性、泛化性和可伸缩性，无论是在具有 800Gbps RDMA 还是 80Gbps TCP/IP 的集群中，CO2 都表现出卓越的能力来大幅提高可扩展性。

Jan, 2024

增强受限带宽网络中大模型训练的稳定性

通过改进分区算法解决大规模语言模型训练中的收敛问题，提高分布式训练效率，并保持可靠的收敛性能。

Jun, 2024

ProTrain: 基于记忆感知技术的高效 LLM 训练

ProTrain 通过协调内存、计算和 IO，采用分块模型状态管理和块状激活管理，在不改变训练算法的情况下，通过内存感知的运行时分析器智能平衡内存使用和性能，相较于其他最佳训练系统，ProTrain 提高了 1.43 倍至 2.71 倍的训练吞吐量。

Jun, 2024

差分隐私下的零冗余分布式学习

使用 DP-ZeRO 系统化解决可训练的巨大 DP 模型的问题，实现深度学习和大型模型的隐私保护训练。

Nov, 2023

分布式训练的通信优化：架构、进展和机遇

大规模深度神经网络的分布式训练通信优化的研究，提出了一个五层范式，强调协同设计的机会。

Mar, 2024

ROAM：通过优化操作符顺序和内存布局实现高效的内存节约的大规模 DNN 训练

ROAM 提出了一种在计算图级别上操作，以得到内存有效的执行计划，包括优化的运算符顺序和张量内存布局，用于模型。ROAM 相对于 Pytorch 和两种最新方法能够显著降低 35.7%、13.3% 和 27.2% 的内存需求并达到了惊人的 53.7 倍加速。

Oct, 2023

GaLore: 通过梯度低秩投影实现的内存高效 LLM 训练

通过提出 Gradient Low-Rank Projection (GaLore) 的训练策略，本研究在大规模语言模型的预训练过程中实现全参数学习，并以更高的内存效率减少了高达 65.5% 的优化器状态内存使用，同时在多项任务上保持了效率和性能，展示出在具有 24GB 内存的消费级 GPU 上（例如 NVIDIA RTX 4090）进行 7B 模型的预训练的可行性。

Mar, 2024

CoMERA：基于等级自适应张量优化的计算和内存高效训练

CoMERA 是一种通过排名自适应张量优化进行计算和内存高效训练的方法，通过多目标优化公式实现端到端的张量压缩训练，并在训练过程中提供了高压缩比和优良的准确性，同时比 GaLore 方法在内存和计算效率方面表现更优。

May, 2024