Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

May, 2019

Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

Gram-Gauss-Newton Method: Learning Overparameterized Neural Networks for Regression Problems

Tianle Cai, Ruiqi Gao, Jikai Hou, Siyu Chen, Dong Wang...

TL;DR本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络，并借鉴了神经切线核（NTK）的想法。与典型的二阶方法相比，GGN 在每次迭代中只有小的开销。本文还给出了理论结果，证明对于足够广的神经网络，GGN 的收敛速度是二次的。此外，我们还提供了 mini-batch GGN 算法的收敛保证，这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明，对于训练常规网络，我们的 GGN 算法比 SGD 收敛速度更快，性能更好。

Abstract

First-order methods such as stochastic gradient descent (SGD) are currently the standard algorithm for training deep neural networks. second-order methods, despite their better →

deep neural networks gram-gauss-newton algorithm ntk kernel regression second-order methods convergence rate

发现论文，激发创造

规则化的高斯牛顿方法优化超参数化神经网络

研究了使用广义高斯 - 牛顿优化方法优化具有显式正则化的双层神经网络，通过考虑常用目标函数中惩罚项的光滑近似来提供自适应学习率选择技术，数值实验结果突出了广义自共轭正则化对优化后的神经网络泛化性能的改善方面。

Apr, 2024

深度神经网络训练的精确 Gauss-Newton 优化

我们介绍了 EGN，一种随机二阶优化算法，将广义高斯 - 牛顿（GN）Hessian 近似与低秩线性代数相结合，计算下降方向。借助 Duncan-Guttman 矩阵恒等式，通过分解一个与小批次大小相同的矩阵来获得参数更新，这在维度远超批次大小的大规模机器学习问题中特别有优势。此外，我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外，在温和假设下，我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后，我们的数值实验表明，在各种监督学习和强化学习任务中，EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。

May, 2024

（过参数化）神经网络的近线性时间训练

该论文提出了一种基于随机线性代数的改进的二阶优化算法，重新解构了高斯牛顿迭代，使用快速 Johnson-Lindenstrauss 变换进行预处理，并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络，并且取得了快速训练的效果。

Jun, 2020

通过局部线性化改进贝叶斯神经网络的预测

本文提出了一种基于广义高斯牛顿近似方法的贝叶斯神经网络预测方法，将原始预测模型线性化为广义线性模型（GLM）后，用于后验推理和预测中，解决了拉普拉斯近似方法下的欠拟合问题。在多个标准分类数据集上以及外部分布检测中得到了验证。

Aug, 2020

过参数神经网络优化算法的动力学视角

本研究通过分析神经网络与算法优化之间的关系，探讨了近期许多工作都关注的神经网络损失动态问题，证明了在 ReLU 激活函数下，NAG 算法可能只是以次线性的速度达到全局最小值，结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。

Oct, 2020

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

本文提出了一种基于结构引导的 Gauss-Newton 方法，用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构，通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数，方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中，为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵，用于高效迭代。实验证明，在合理的假设下，线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此，SgGN 方法自然地产生了一个有效的搜索方向，无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证，特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。

Apr, 2024

深度学习的实用高斯牛顿优化

我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵，与一阶优化方法相比，有时能够显著提高优化性能。此外，我们的方法无需繁琐的调参，即可提供良好的性能。在针对分段线性转移函数进行优化时，网络目标函数可能不存在可微的局部极大值，这也可以部分解释为什么这样的转移函数有助于有效优化。

Jun, 2017

二次回归模型表现出稳定边缘的逐渐加强

本文研究了大步长梯度下降的特性，证明二阶回归模型中存在一种逐渐趋于稳定的过程，这一过程不仅仅局限于神经网络等复杂的高维非线性模型中，这可能是一种离散学习算法。

Oct, 2022

高效的子采样 Gauss-Newton 和自然梯度方法用于训练神经网络

使用 Levenberg-Marquardt 的 Gauss-Newton 和自然梯度方法，解决深度神经网络大量变量和海量数据集所产生的非凸优化问题，证明方法能够有效实现并提出数值结果。

Jun, 2019