May, 2019

Gram-Gauss-Newton 方法:学习超参数神经网络用于回归问题

TL;DR本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广的神经网络,GGN 的收敛速度是二次的。此外,我们还提供了 mini-batch GGN 算法的收敛保证,这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明,对于训练常规网络,我们的 GGN 算法比 SGD 收敛速度更快,性能更好。