梯度下降训练的神经网络的近似结果

Sep, 2023

梯度下降训练的神经网络的近似结果

Approximation Results for Gradient Descent trained Neural Networks

G. Welper

TL;DR用梯度流训练具有近似保证的神经网络对目标进行测量，并在连续的带状 d 维单位球上用 L2 正规化，网络为全连接的常数深度和增加的宽度，基于神经切向核（NTK）对非凸倒数第二层的分析，呈现出欠参数化的状态以满足近似所需的自然平滑性假设。

Abstract

The paper contains approximation guarantees for neural networks that are trained with gradient flow, with error measured in the continuous

approximation guarantees neural networks gradient flow continuous error norm sobolev smooth

发现论文，激发创造

神经网络的近似和梯度下降训练

通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

May, 2024

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

通过普通梯度下降超越 NTK: 关于多项式宽度、样本和时间的神经网络的平均场分析

本文研究了非凸优化的双层神经网络，并探讨了梯度下降和核方法之间的样本复杂性差异问题。结果显示，使用不作任何修改的梯度下降算法可以在多项式次迭代后收敛到一非微不足道的错误，而核方法则不具备类似的性质。

Jun, 2023

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

无正则项梯度下降学得的过参数化深度神经网络估计的 $L_2$ 误差分析

通过合适的初始化、梯度下降步数和步长选择，在深度神经网络中无需正则化项，可以达到普适的一致性和收敛速度，而且对于有界预测变量，$L_2$ 误差收敛速度约为 $n^{-1/(1+d)}$，对于交互模型，收敛速度与输入维度 $d$ 无关。

Nov, 2023

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021