ICLRApr, 2019

深度学习大批量优化:76 分钟训练 BERT

TL;DR本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB,主要用于加速深度神经网络训练。在各种任务(如 BERT 和 ResNet-50)中,LAMB 的表现优于现有算法,特别是在 BERT 训练中,我们的优化器能够实现 32868 的大批量大小,将训练时间从 3 天缩短至 76 分钟。