深度学习的超参数化收敛理论
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文分析了 ReLU 激活的隐式神经网络的梯度流,证明了如果隐式神经网络是超参数化的,那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值,这一结果与有限层参数超过的神经网络的收敛结果不同,因为本文的结论适用于无限层的神经网络。
Oct, 2021
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
本研究讨论使用梯度下降和随机梯度下降算法进行训练具有 $L$ 层隐藏层的线性残差神经网络(ResNets)所需的网络宽度和线性变换;并且证明了在特定的线性变换和零初始化条件下,GD 和 SGD 算法能够收敛到最小训练误差的全局最小值。
Mar, 2020
本研究通过分析神经网络与算法优化之间的关系,探讨了近期许多工作都关注的神经网络损失动态问题,证明了在 ReLU 激活函数下,NAG 算法可能只是以次线性的速度达到全局最小值,结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。
Oct, 2020
通过学习两层的过参数化神经网络在使用 Leaky ReLU 激活函数的情况下,为 SGD 进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的 SGD 理论联系起来。
Nov, 2018
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。
Oct, 2018