我们研究了常见损失曲面的性质,并针对深度学习,通过Hessian矩阵的谱将其分为两个部分,并证明了Sagun等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
本文研究了神经网络学习中超参数化的有效性,提出了一种使用局部搜索算法寻找全局最优解的方法,并使用Rademacher复杂性理论证明了在权重衰减的情况下,解决方案在数据采样自正态分布等正则分布的情况下也能很好地推广,同时还分析了具有二次激活函数和n个训练数据点的k个隐藏节点浅层网络的本质性质。
Mar, 2018
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足Polyak-Lojasiewicz条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
Nov, 2018
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的PL$^*$条件密切相关,这解释了(S)GD对全局最小值的收敛,并提出了一个放松PL$^*$条件的方法可应用于几乎超参数系统。
Feb, 2020
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
本研究解决了神经网络损失景观在样本量增加时变化的未探索问题。通过理论分析和实证研究,展示了损失函数在图像分类任务上的收敛性,并为样本量确定技术的发展提供了重要启示。
Sep, 2024
本研究解决了现有深度学习模型优化方法需满足的特定结构条件的不足。我们提出了一种新函数类,能够在不需要大量过度参数化的情况下表征深度模型的损失景观,并证明了基于梯度的优化器在此假设下的收敛性。通过理论分析和实证实验验证了该新函数类的可靠性。
Oct, 2024