深度神经网络训练的精确 Gauss-Newton 优化

May, 2024

深度神经网络训练的精确 Gauss-Newton 优化

Exact Gauss-Newton Optimization for Training Deep Neural Networks

Mikalai Korbit, Adeyemi D. Adeoye, Alberto Bemporad, Mario Zanon

TL;DR我们介绍了 EGN，一种随机二阶优化算法，将广义高斯 - 牛顿（GN）Hessian 近似与低秩线性代数相结合，计算下降方向。借助 Duncan-Guttman 矩阵恒等式，通过分解一个与小批次大小相同的矩阵来获得参数更新，这在维度远超批次大小的大规模机器学习问题中特别有优势。此外，我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外，在温和假设下，我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后，我们的数值实验表明，在各种监督学习和强化学习任务中，EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。

Abstract

We present egn, a stochastic second-order optimization algorithm that combines the generalized gauss-newton (GN) Hessian approximation wit

egn stochastic second-order optimization generalized gauss-newton large-scale machine learning neural network

发现论文，激发创造

Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络，并借鉴了神经切线核（NTK）的想法。与典型的二阶方法相比，GGN 在每次迭代中只有小的开销。本文还给出了理论结果，证明对于足够广的神经网络，GGN 的收敛速度是二次的。此外，我们还提供了 mini-batch GGN 算法的收敛保证，这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明，对于训练常规网络，我们的 GGN 算法比 SGD 收敛速度更快，性能更好。

May, 2019

规则化的高斯牛顿方法优化超参数化神经网络

研究了使用广义高斯 - 牛顿优化方法优化具有显式正则化的双层神经网络，通过考虑常用目标函数中惩罚项的光滑近似来提供自适应学习率选择技术，数值实验结果突出了广义自共轭正则化对优化后的神经网络泛化性能的改善方面。

Apr, 2024

深度学习的实用高斯牛顿优化

我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵，与一阶优化方法相比，有时能够显著提高优化性能。此外，我们的方法无需繁琐的调参，即可提供良好的性能。在针对分段线性转移函数进行优化时，网络目标函数可能不存在可微的局部极大值，这也可以部分解释为什么这样的转移函数有助于有效优化。

Jun, 2017

深度神经网络优化的进化随机梯度下降

该研究提出了一种基于人口的进化随机梯度下降（ESGD）框架来优化深度神经网络，该框架将 SGD 和基于梯度的进化算法作为互补算法，以提高种群的平均适应度。

Oct, 2018

高效的子采样 Gauss-Newton 和自然梯度方法用于训练神经网络

使用 Levenberg-Marquardt 的 Gauss-Newton 和自然梯度方法，解决深度神经网络大量变量和海量数据集所产生的非凸优化问题，证明方法能够有效实现并提出数值结果。

Jun, 2019

一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

本文提出了一种基于结构引导的 Gauss-Newton 方法，用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构，通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数，方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中，为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵，用于高效迭代。实验证明，在合理的假设下，线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此，SgGN 方法自然地产生了一个有效的搜索方向，无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证，特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。

Apr, 2024

训练深度神经网络的实用拟牛顿方法

本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练，通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。

Jun, 2020

通过局部线性化改进贝叶斯神经网络的预测

本文提出了一种基于广义高斯牛顿近似方法的贝叶斯神经网络预测方法，将原始预测模型线性化为广义线性模型（GLM）后，用于后验推理和预测中，解决了拉普拉斯近似方法下的欠拟合问题。在多个标准分类数据集上以及外部分布检测中得到了验证。

Aug, 2020

EA-CG：一种用于训练全连接神经网络的近似二阶方法

该研究提出了一个实用的近似二阶方法来训练全连接神经网络，其中包括一个 Hessian matrix 的近似和一个共轭梯度（CG）算法，并且通过与一级近似结合的共轭梯度算法，大大减少了空间和时间复杂度。经验研究表明，该方法具有高效性和效果。

Feb, 2018

随机牛顿近端外推法

我们提出了一种新颖的随机牛顿近端外推方法，改进了过去的方法，并在更少的迭代次数内达到更快的全局线性速率和相同的快速超线性速率。

Jun, 2024