深度神经网络模型中带有跨连接的梯度下降算法分析

Apr, 2019

深度神经网络模型中带有跨连接的梯度下降算法分析

Analysis of the Gradient Descent Algorithm for a Deep Neural Network Model with Skip-connections

Weinan E, Chao Ma, Qingcan Wang, Lei Wu

TL;DR研究了具有跳跃连接的深度神经网络模型的梯度下降算法的行为。证明了在超参数化区域内，通过适当的初始化，梯度下降可以以指数速度找到全局最小值。建立了沿着梯度下降路径的泛化误差评估，并得出在目标函数是由初始化定义的核定义的再生核希尔伯特空间（RKHS）时，沿着梯度下降路径存在可推广的提前停止解的结论。此外，还证明了 GD 路径与相关随机特征模型给出的函数之间的一致接近。因此，在这种 “隐式正则化” 环境中，深度神经网络模型退化为一个随机特征模型。结果适用于任何宽度大于输入维度的神经网络。

Abstract

The behavior of the gradient descent (GD) algorithm is analyzed for a deep neural network model with skip-connections. It is proved that in the over-parametrized regime, for a suitable initialization, with high p

gradient descent deep neural network model skip-connections rkhs random feature model

发现论文，激发创造

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

深度残差网络过参数化情况下的算法依赖性泛化界

通过分析过度参数化的深层残差网络，我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集，这个子集足够大以保证小的训练误差和测试误差，并且此类网络具有小的泛化差距，这提供了残差网络优于非残差网络的解释。

Oct, 2019

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

梯度下降找到深度神经网络的全局最小值

通过分析神经网络架构的格拉姆矩阵的结构，证明了梯度下降法在针对深度超参数神经网络 ResNet 的多项式时间内实现零训练损失，并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。

Nov, 2018

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

我们需要多少个神经元？使用梯度下降算法训练的浅层网络的精细分析

我们在神经切向核（NTK）范围内对使用梯度下降（GD）训练的两层神经网络的泛化性质进行分析，对于早停止的 GD，我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度；在此过程中，我们准确地跟踪了泛化所需的隐藏神经元的数量，并改进了现有的结果；此外，我们进一步展示了在训练过程中，权重保持在初始化附近的一个领域内，该半径取决于回归函数的平滑度和与 NTK 相关的积分算子的特征值衰减等结构假设。

Sep, 2023

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018