Jul, 2023

非光滑非凸优化中随机次梯度方法的收敛性保证

TL;DR本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法,包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。