Jul, 2023

mL-BFGS: 基于动量的分布式大规模神经网络优化的 L-BFGS

TL;DRmL-BFGS 是一种基于动量的轻量级 L-BFGS 算法,为大规模分布式深度神经网络 (DNN) 优化带来了拟牛顿法在大规模训练中的潜力。mL-BFGS 通过引入几乎无额外计算成本的动量方案,并显著减少 Hessian 中的随机噪声,从而在随机优化过程中稳定收敛。实验结果表明,mL-BFGS 在迭代和实际时间上均获得了明显的加速效果,并与基准方法(SGD、Adam 和其他拟牛顿法)进行了比较。