减少大型 Transformer 模型中的激活重新计算
设计了一个新的重计算框架 Lynx,通过将重计算与训练管道中发生的通信重叠来减少开销,其中包括优化调度算法(OPT)和基于启发式的调度算法(HEU),OPT 实现了全局最优但搜索时间较长,HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%,使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示,OPT 和 HEU 在性能上都优于现有的重计算方法(例如 Megatron-LM 和 Checkmake)1.02-1.53 倍,HEU 的平均搜索时间为 0.16 秒,与 OPT 具有类似的性能。
Jun, 2024
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
提出一种可同时优化分布式执行和渐进式检查点规划的系统,以支持在给定硬件上最小代码更改的情况下对模型进行并行训练,并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。
Feb, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题,并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。
Jul, 2023
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练 13B 模型时,模型 FLOPs 利用率达到了 70.5%。
Nov, 2023
本研究介绍一种基于缓存优化技术的变压器模型加速方案,通过建立基于大内存系统的注意力数据库来加速注意力计算,从而实现了平均 21%的性能提升(最高 68%),并且在推理准确性上有可忽略的损失。
Jan, 2023
本文提出了一种名为 ActNN 的基于随机量化激活值实现的内存高效训练框架,该框架针对神经网络训练过程中内存不足的问题,利用分层、分维度、分样本的异质性进行多样化的量化,以达到减小内存占用和缩短训练时间的目的,Empirically 验证了 ActNN 的有效性,并表明其不会带来过大的精度损失。
Apr, 2021