超参数神经网络的梯度下降动力学

May, 2021

超参数神经网络的梯度下降动力学

The Dynamics of Gradient Descent for Overparametrized Neural Networks

Siddhartha Satpathi, R Srikant

TL;DR本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

Abstract

We consider the dynamics of gradient descent (GD) in overparameterized single hidden layer neural networks with a squared loss function. Recently, it has been shown that, under some conditions, the parameter valu

gradient descent neural networks overparameterization training error generalization

发现论文，激发创造

过参数神经网络优化算法的动力学视角

本研究通过分析神经网络与算法优化之间的关系，探讨了近期许多工作都关注的神经网络损失动态问题，证明了在 ReLU 激活函数下，NAG 算法可能只是以次线性的速度达到全局最小值，结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。

Oct, 2020

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

多层神经网络梯度下降的泛化保证

对梯度下降训练的神经网络的稳定性和泛化性进行研究，探讨不同网络缩放参数的影响，发现在稳定性和超参数化方面的一些新的规律，并证明了过度参数化的神经网络可以达到所需的风险水平。

May, 2023