标准梯度全部
通过实例推导得到一个新的平滑度条件 - 梯度平滑度随着梯度范数增大而增大,进一步推出了一种新的梯度平滑弱化条件,这使得旧行业标准的梯度下降优化算法可以进行改进。我们证明,这种新条件下的梯度削减和标准化梯度方法的收敛速度可任意加快,并在流行的神经网络训练环境下进行了实证验证。
May, 2019
通过分析,我们展示了对于凸问题,自适应的近端梯度方法不受传统的 Lipschitzian 假设的限制。我们的分析揭示了一类无需线搜索的方法仍然在纯粹的局部 Hölder 梯度连续性下收敛,特别是连续可微分的半代数函数。为了解决局部 Lipschitz 连续性的缺失,流行的方法围绕着 ε- 预测器和 / 或线搜索程序。相反,我们利用 Hölder 不等式,而不需要任何近似,同时保持自适应方案的无需线搜索的特性。此外,我们在先验地不了解局部 Hölder 常数和 Hölder 连续性的阶的情况下,证明了完全序列的收敛性。在数值实验中,我们将其与基准方法在涵盖局部和全局 Hölder 设置的各种机器学习任务中进行比较。
Feb, 2024
我们开发了一种梯度下降法的新次优性边界,该边界依赖于优化路径中的目标条件,而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性,这是一种梯度变化的度量,我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束,我们展示了这些方程对于凸二次函数是容易解决的,并为两种传统步长提供了新的保证。对于一般函数,我们证明了 Polyak 步长和归一化梯度下降法尽管不使用方向平滑性的任何知识,但能够获得快速的路径相关性。逻辑回归上的实验证明,我们的收敛保证比基于 L 平滑性的传统理论更紧致。
Mar, 2024
这篇文章研究了在有界局部次梯度变化情况下的非光滑优化问题,定义了目标函数的类别,包括传统优化问题中基于目标函数的 Lipschitz 连续性或梯度的 Holder/Lipschitz 连续性的函数,并且包含了既不是 Lipschitz 连续也没有 Holder 连续梯度的函数类别。研究结果表明在传统的优化问题类别中,所定义的类别参数能够得到更为精细的复杂度界限,并恢复了最坏情况下的传统 oracle 复杂度界限,同时对于不是最坏情况的函数通常能够得到更低的 oracle 复杂度。此外,该文章还强调了在并行计算环境中非光滑优化的复杂度与次梯度集合的平均宽度有关。
Mar, 2024
本文介绍了一种新的非均匀光滑条件下的优化方法,并开发出一种简单但有效的分析技术来限制沿轨迹的梯度,从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了(随机)梯度下降和 Nesterov 加速梯度法在这种一般的光滑条件下的收敛率,而不需要梯度剪裁,并允许在随机场景中的有界方差的重尾噪声。
Jun, 2023
本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系,指出后者是更弱和更自然的假设。研究表明,在深度网络中,如果 Hession 矩阵在对角线方向上集中,并且其最大特征值远大于平均特征值,则符号法比梯度下降更优。
Feb, 2020
通过非统一的平滑性和非统一的 Lojasiewicz 不等式,提出了一些新的方法,用于更快地达到全局最优点,在强化学习和监督学习中表现出了广泛的适用性及实验效果。
May, 2021