一个替代观点:随机梯度下降在何时逃离局部极小值?
SGD使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了SGD最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明SGD在经典意义下甚至不会收敛,因此这种'失衡'的行为是由于对于深度网络,SGD的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本研究证明了随机梯度下降法 (SGD)可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了SGD可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了SGD以确定性方式收敛于全局最小值。
Jan, 2019
本文提出了一种新的Local SGD方法的分析方式,去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别,对于这两种情况,我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的Local SGD方法的新的方差概念。当$H=1$时,我们恢复已知的语句以保证我们结果的紧密性。实证证据进一步验证了数据异构性对Local SGD性能的严重影响。
Sep, 2019
该研究旨在通过分析局部收敛行为来解释为什么类似ADAM的适应性梯度算法的泛化性能比SGD差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD相比于ADAM能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间SGD在二次损失函数中的稳态分布,讨论了其影响,并考虑了SGD变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和Adam的二阶方法的稳态协方差等应用。
Dec, 2020
本文研究了随机梯度下降(SGD)算法的全局最优性,在探究了之前研究的局限性之后,发现在一些情况下,SGD可能表现出奇怪且不可取的行为。作者通过构建高维度的优化问题及数据分布,证明了SGD在大多数情况下会收敛到局部最大值,逃离鞍点所需时间会相当长,会偏爱锐利的最小值而非平坦的。文中还举了一个小型神经网络作为实例来验证理论,结果强调深度学习中SGD的重要性,需要同时分析小批量采样、离散时间更新和实际数据名称等因素。
Jul, 2021
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Dec, 2023