MLPerf 训练突破：BERT 优化案例研究

Feb, 2024

MLPerf 训练突破：BERT 优化案例研究

Breaking MLPerf Training: A Case Study on Optimizing BERT

Yongdeok Kim, Jaehyung Ahn, Myeongwoo Kim, Changin Choi, Heejae Kim...

TL;DR提出了新的方法，包括负载均衡、通信成本隐藏、优化器重新评估，并结合超参数优化和更大的批次使用 ADAM 等技术，实现了最快的 MLPerf BERT 训练，比其他两个（一个）MLPerf v1.1（v2.0）提交的结果更快。

Abstract

Speeding up the large-scale distributed training is challenging in that it requires improving various components of training including load balancing, communication, →

large-scale distributed training bert model load balancing communication cost optimizers

发现论文，激发创造

深度学习大批量优化：76 分钟训练 BERT

本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB，主要用于加速深度神经网络训练。在各种任务（如 BERT 和 ResNet-50）中，LAMB 的表现优于现有算法，特别是在 BERT 训练中，我们的优化器能够实现 32868 的大批量大小，将训练时间从 3 天缩短至 76 分钟。

Apr, 2019

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

1-bit Adam：高效通讯的 Adam 收敛速度大规模训练

本文提出使用 1 位 Adam 方法和误差补偿压缩技术来提高通信效率和扩展性，实验结果表明，该方法在 BERT 和 SQuAD 任务上能够显著加速训练，同时保证了收敛速度和压缩率。

Feb, 2021

针对大型语言模型的前沿分布式训练优化

通过实验结果和超参数调整，我们提出了一套用于大型语言模型的分布式训练策略。

Dec, 2023

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练 13B 模型时，模型 FLOPs 利用率达到了 70.5%。

Nov, 2023

优化 GPU 集群上分布式 DNN 训练的网络性能：1.5 分钟内完成 ImageNet/AlexNet 训练

本论文提出了一种名为 GradientFlow 的通信后端，通过一系列网络优化技术来优化深度神经网络（DNN）的分布式训练，包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等，实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。

Feb, 2019

MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件，我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。

Oct, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

大规模差分隐私 BERT

本文探究了使用差分隐私 SGD（DP-SGD）进行 BERT-Large 的大规模预训练。通过仔细的实现和批量大小增加，我们提高了 DP-SGD 步骤的实用性，并使用增加的批量大小计划提高了其效率。

Aug, 2021

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020