通过长步长可证明更快的梯度下降算法
我们提出了一种适应梯度下降优化方法中更新方向的统一框架,并通过重构经典动量法和Nesterov加速梯度法来解释后者算法的新直观解释。我们展示了一种新算法——正则化梯度下降——比Nesterov算法或经典动量算法更快地收敛。
Jul, 2016
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD生成的迭代序列保持有界并以概率1收敛,随后证明了SGD避开了严格的鞍点/流形的概率是1,最后证明了算法在采用Theta(1/n^p)步长时收敛速度为O(1/n^p),这为调整算法步长提供了重要的指导建议,并且在CIFAR的ResNet架构中,展示了此启发式方法加速收敛的效果。
Jun, 2020
本论文提出一种简单的统计程序,可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段,从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能,即便目标函数为二次时,传统的Pflug检验方法也不能提供足够的诊断。
Jul, 2020
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
我们介绍了一种新颖的动态学习率调度方案,旨在简化实践中手动而耗时的调度。我们的方法基于估计局部最优步长,确保在当前步骤的随机梯度方向上实现最大下降。我们首先在平滑的非凸随机优化环境中建立了我们方法的理论收敛边界,与最新的边界相匹配,仅假设对平滑参数具有知识。然后,我们提出了我们算法的实际实现,并在不同数据集和优化算法上进行系统实验,将我们的方案与现有的最新学习率调度器进行比较。我们的发现表明,与现有方法相比,我们的方法需要最少的调整,消除了辅助手动调度和预热阶段的需要,并实现了具有大大减少参数调整的可比性能。
Nov, 2023
我们开发了一种梯度下降法的新次优性边界,该边界依赖于优化路径中的目标条件,而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性,这是一种梯度变化的度量,我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束,我们展示了这些方程对于凸二次函数是容易解决的,并为两种传统步长提供了新的保证。对于一般函数,我们证明了Polyak步长和归一化梯度下降法尽管不使用方向平滑性的任何知识,但能够获得快速的路径相关性。逻辑回归上的实验证明,我们的收敛保证比基于L平滑性的传统理论更紧致。
Mar, 2024
通过改变步长序列,可以加速原始的梯度下降方法,并导致不断增大的误差,因此我们提出了一个问题:是否存在可以在任意停止时间下加速经典的 $\mathcal{O}(1/T)$ 收敛速度的梯度下降步长安排?
Jun, 2024
本研究解决了梯度下降的线性收敛依赖于函数在最小值附近 quadratic 增长的普遍看法,证明了在四阶增长条件下梯度下降仍然可以实现局部(几乎)线性收敛。提出的自适应步长基于一种有趣的分解定理,对于这类平滑函数,最优解周围形成的“山谷”结构保障了快速收敛。此工作对矩阵感知、分解及超参数化单神经元学习等问题提供了理论与算法的应用示例。
Sep, 2024