Jun, 2020

训练深度神经网络的实用拟牛顿方法

TL;DR本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练,通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。