Jul, 2023
mL-BFGS: 基于动量的分布式大规模神经网络优化的 L-BFGS
mL-BFGS: A Momentum-based L-BFGS for Distributed Large-Scale Neural Network Optimization
Yue Niu, Zalan Fabian, Sunwoo Lee, Mahdi Soltanolkotabi, Salman Avestimehr
TL;DRmL-BFGS 是一种基于动量的轻量级 L-BFGS 算法,为大规模分布式深度神经网络 (DNN) 优化带来了拟牛顿法在大规模训练中的潜力。mL-BFGS 通过引入几乎无额外计算成本的动量方案,并显著减少 Hessian 中的随机噪声,从而在随机优化过程中稳定收敛。实验结果表明,mL-BFGS 在迭代和实际时间上均获得了明显的加速效果,并与基准方法(SGD、Adam 和其他拟牛顿法)进行了比较。