MLPerf 训练突破:BERT 优化案例研究
本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB,主要用于加速深度神经网络训练。在各种任务(如 BERT 和 ResNet-50)中,LAMB 的表现优于现有算法,特别是在 BERT 训练中,我们的优化器能够实现 32868 的大批量大小,将训练时间从 3 天缩短至 76 分钟。
Apr, 2019
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
本文提出使用 1 位 Adam 方法和误差补偿压缩技术来提高通信效率和扩展性, 实验结果表明,该方法在 BERT 和 SQuAD 任务上能够显著加速训练,同时保证了收敛速度和压缩率。
Feb, 2021
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练 13B 模型时,模型 FLOPs 利用率达到了 70.5%。
Nov, 2023
本论文提出了一种名为 GradientFlow 的通信后端,通过一系列网络优化技术来优化深度神经网络(DNN)的分布式训练,包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等,实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。
Feb, 2019
基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件,我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。
Oct, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
本文探究了使用差分隐私 SGD(DP-SGD)进行 BERT-Large 的大规模预训练。通过仔细的实现和批量大小增加,我们提高了 DP-SGD 步骤的实用性,并使用增加的批量大小计划提高了其效率。
Aug, 2021
本篇论文提出了一种混合模型压缩方法 LadaBERT,结合权重剪枝、矩阵分解和知识蒸馏等技术,可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型,可以更好地满足用户请求的低延迟需求。
Apr, 2020