所有学习都是自然梯度下降吗?
本文研究了使用自然梯度算法在深度学习中的应用以及其与其他三种方法的联系,并提出了使用未标记数据提高自然梯度算法推广误差鲁棒性的新方法,并将自然梯度算法扩展到包括第二阶信息和流形信息。
Jan, 2013
我们证明了随机梯度下降算法可以高效地收敛于未知线性时不变动态系统的极大似然目标函数的全局极值。虽然该目标函数是非凸的,但我们在强但自然的假设下提供了多项式运行时间和样本复杂度界限。尽管线性系统识别已经研究了许多年,但据我们所知,这是我们所考虑的问题的第一个多项式保证。
Sep, 2016
本文介绍了使用梯度下降算法在深度线性神经网络中学习的近似函数的算法,并分析了在输入分布为各向同性时,使用多项式约束的梯度下降算法能多快地逼近最小二乘矩阵,以及针对不同情况下的正则化方法如何对收敛时效产生影响。此外,文章还探讨了对称正定矩阵条件下的算法,以及对于某些不对称矩阵的处理方式。
Feb, 2018
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的PL$^*$条件密切相关,这解释了(S)GD对全局最小值的收敛,并提出了一个放松PL$^*$条件的方法可应用于几乎超参数系统。
Feb, 2020
本研究探讨了当经验风险为弱凸函数时,梯度下降的学习性能,并通过将最小负特征值应用于控制梯度下降的稳定性,从而证明了与先前的研究相比,其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时,可以通过对网络进行归一化来控制误差,其中,两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放,深入探讨了神经网络缩放的隐式偏差,并得出实验结果的支持。
Jan, 2021
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零。
Feb, 2024