通过星型凸路径,SGD在深度学习中收敛到全局最小值
本文重新审视了使用SGD来训练深度神经网络的选择,通过重新考虑优化权重时所适当的几何方式,提出了一种几何不变,不受权重重放缩影响的Path-SGD方法,并结合与最大范数正则化相关的基于路径的正则化器,使用这种近似的最陡梯度下降方法,以改进SGD和AdaGrad的效果。
Jun, 2015
SGD使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了SGD最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明SGD在经典意义下甚至不会收敛,因此这种'失衡'的行为是由于对于深度网络,SGD的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。
Jun, 2018
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
在对使用ReLU和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立SGD、动量SGD、AdaGrad、RMSprop和Adam优化器)高概率无法收敛到全局最小值,并证实了ANN训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。
Feb, 2024
本研究针对高维学习中随机梯度下降(SGD)及其加速变种的最优性问题进行探讨,填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界,论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外,研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性,并表明动量能够在相对困难的学习问题上显著加速收敛速度。
Sep, 2024