通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
Nov, 2018
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
本文研究了 ReLU 神经网络中的过度参数化对优化景观的影响,证明了当教师和学生网络拥有相同数量的神经元时,目标函数在全局最小值周围具有强凸性,但在任何超参数化量之后甚至没有局部凸性,而对于大多数方向来说保持一点强凸性,并在此属性之下展示优化保证。
Jun, 2020
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的 SGD 理论联系起来。
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
提出了一种自适应梯度下降方法,可用于优化过度参数化的两层神经网络,并能在多项式时间内收敛到全局最小值,无需微调超参数,如步长计划,且超参数的级别与训练误差无关。
通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响,我们证明了过度参数化会引入伪平衡点,阻碍梯度下降算法的收敛。
May, 2023
通过学习两层的过参数化神经网络在使用 Leaky ReLU 激活函数的情况下,为 SGD 进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
对使用两层神经网络进行信息理论分析的研究,研究了限制数据和模型的情况下神经网络的性能极限,结果表明这个性能极限取决于训练数据的数量、输入维度和隐藏单元的数量
Jul, 2023