ICLRSep, 2017

使用近似 Hessian 矩阵加速分布式深度学习的 SGD

TL;DR本文提出一种新的分布式计算方法,用于计算海森矩阵的逆的排名 $m$ 近似,该方法利用多个 Worker 的梯度和参数的差异,有效地实现了牛顿 - 拉夫逊方法的分布式近似,并揭示出二阶方法用于大规模随机优化问题的优点和挑战,特别是我们的工作表明,结合梯度的新策略提供了关于损失曲面的进一步信息。