一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

Apr, 2024

一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

A Structure-Guided Gauss-Newton Method for Shallow ReLU Neural Network

Zhiqiang Cai, Tong Ding, Min Liu, Xinyu Liu, Jianlin Xia

TL;DR本文提出了一种基于结构引导的 Gauss-Newton 方法，用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构，通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数，方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中，为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵，用于高效迭代。实验证明，在合理的假设下，线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此，SgGN 方法自然地产生了一个有效的搜索方向，无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证，特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。

Abstract

In this paper, we propose a structure-guided Gauss-Newton (SgGN) method for solving least squares problems using a shallow relu neural network. The method effectively takes advantage of both the least squares str

structure-guided gauss-newton method least squares problems relu neural network nonlinear and linear parameters gauss-newton matrix

发现论文，激发创造

Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络，并借鉴了神经切线核（NTK）的想法。与典型的二阶方法相比，GGN 在每次迭代中只有小的开销。本文还给出了理论结果，证明对于足够广的神经网络，GGN 的收敛速度是二次的。此外，我们还提供了 mini-batch GGN 算法的收敛保证，这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明，对于训练常规网络，我们的 GGN 算法比 SGD 收敛速度更快，性能更好。

May, 2019

规则化的高斯牛顿方法优化超参数化神经网络

研究了使用广义高斯 - 牛顿优化方法优化具有显式正则化的双层神经网络，通过考虑常用目标函数中惩罚项的光滑近似来提供自适应学习率选择技术，数值实验结果突出了广义自共轭正则化对优化后的神经网络泛化性能的改善方面。

Apr, 2024

深度神经网络训练的精确 Gauss-Newton 优化

我们介绍了 EGN，一种随机二阶优化算法，将广义高斯 - 牛顿（GN）Hessian 近似与低秩线性代数相结合，计算下降方向。借助 Duncan-Guttman 矩阵恒等式，通过分解一个与小批次大小相同的矩阵来获得参数更新，这在维度远超批次大小的大规模机器学习问题中特别有优势。此外，我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外，在温和假设下，我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后，我们的数值实验表明，在各种监督学习和强化学习任务中，EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。

May, 2024

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

通过次线性激活神经元识别来实现高效 SGD 神经网络训练

本文提出了基于静态半空间报告数据结构的神经网络训练方法，通过几何搜索实现亚线性时间的激活神经元识别，并证明该算法可以在 O (M^2/ε^2) 的时间内收敛，其中 M 是系数范数上限，ε 是误差项。

Jul, 2023

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

深度学习的实用高斯牛顿优化

我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵，与一阶优化方法相比，有时能够显著提高优化性能。此外，我们的方法无需繁琐的调参，即可提供良好的性能。在针对分段线性转移函数进行优化时，网络目标函数可能不存在可微的局部极大值，这也可以部分解释为什么这样的转移函数有助于有效优化。

Jun, 2017

使用近似梯度下降学习图神经网络

该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，Softplus 和 Swish，并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。

Dec, 2020