标准梯度全部

Aug, 2023

Normalized Gradients for All

Francesco Orabona

TL;DR使用标准化梯度的黑盒化方式来适应 H"{o} lder 平滑性，并且取决于一种新概念的局部 H"{o} lder 平滑性，主要想法直接源于 Levy [2017]。

Abstract

In this short note, I show how to adapt to H\"{o}lder smoothness using normalized gradients in a black-box way. Moreover, the bound will depend on a novel notion of local H\"{o}lder smoothness. The main idea dire

h"{o}lder smoothness normalized gradients black-box local h"{o}lder smoothness levy

发现论文，激发创造

梯度裁剪为何加速训练：自适应理论解释

通过实例推导得到一个新的平滑度条件 - 梯度平滑度随着梯度范数增大而增大，进一步推出了一种新的梯度平滑弱化条件，这使得旧行业标准的梯度下降优化算法可以进行改进。我们证明，这种新条件下的梯度削减和标准化梯度方法的收敛速度可任意加快，并在流行的神经网络训练环境下进行了实证验证。

May, 2019

自适应近端梯度方法的普适性无需近似

通过分析，我们展示了对于凸问题，自适应的近端梯度方法不受传统的 Lipschitzian 假设的限制。我们的分析揭示了一类无需线搜索的方法仍然在纯粹的局部 Hölder 梯度连续性下收敛，特别是连续可微分的半代数函数。为了解决局部 Lipschitz 连续性的缺失，流行的方法围绕着 ε- 预测器和 / 或线搜索程序。相反，我们利用 Hölder 不等式，而不需要任何近似，同时保持自适应方案的无需线搜索的特性。此外，我们在先验地不了解局部 Hölder 常数和 Hölder 连续性的阶的情况下，证明了完全序列的收敛性。在数值实验中，我们将其与基准方法在涵盖局部和全局 Hölder 设置的各种机器学习任务中进行比较。

Feb, 2024

方向平滑性和梯度方法：收敛性和适应性

我们开发了一种梯度下降法的新次优性边界，该边界依赖于优化路径中的目标条件，而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性，这是一种梯度变化的度量，我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束，我们展示了这些方程对于凸二次函数是容易解决的，并为两种传统步长提供了新的保证。对于一般函数，我们证明了 Polyak 步长和归一化梯度下降法尽管不使用方向平滑性的任何知识，但能够获得快速的路径相关性。逻辑回归上的实验证明，我们的收敛保证比基于 L 平滑性的传统理论更紧致。

Mar, 2024

SmoothGrad: 通过添加噪声去除噪声

本文介绍了一种基于渐变的灵敏度图可视化方法 SmoothGrad 以及其优化技术，旨在更好地理解深度网络的决策过程。

Jun, 2017

在更细粒度上的优化：有界局部次梯度变化视角

这篇文章研究了在有界局部次梯度变化情况下的非光滑优化问题，定义了目标函数的类别，包括传统优化问题中基于目标函数的 Lipschitz 连续性或梯度的 Holder/Lipschitz 连续性的函数，并且包含了既不是 Lipschitz 连续也没有 Holder 连续梯度的函数类别。研究结果表明在传统的优化问题类别中，所定义的类别参数能够得到更为精细的复杂度界限，并恢复了最坏情况下的传统 oracle 复杂度界限，同时对于不是最坏情况的函数通常能够得到更低的 oracle 复杂度。此外，该文章还强调了在并行计算环境中非光滑优化的复杂度与次梯度集合的平均宽度有关。

Mar, 2024

广义平滑下的凸优化和非凸优化

本文介绍了一种新的非均匀光滑条件下的优化方法，并开发出一种简单但有效的分析技术来限制沿轨迹的梯度，从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了（随机）梯度下降和 Nesterov 加速梯度法在这种一般的光滑条件下的收敛率，而不需要梯度剪裁，并允许在随机场景中的有界方差的重尾噪声。

Jun, 2023

符号梯度下降的几何学

本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系，指出后者是更弱和更自然的假设。研究表明，在深度网络中，如果 Hession 矩阵在对角线方向上集中，并且其最大特征值远大于平均特征值，则符号法比梯度下降更优。

Feb, 2020

加速梯度算法与自适应子空间搜索用于快速实例优化

设计和分析基于梯度的算法，适用于机器学习中的优化问题，包括线性回归等，并改进了现有的复杂度下界。

Dec, 2023

利用非均匀性进行一阶非凸优化

通过非统一的平滑性和非统一的 Lojasiewicz 不等式，提出了一些新的方法，用于更快地达到全局最优点，在强化学习和监督学习中表现出了广泛的适用性及实验效果。

May, 2021

重新审视在放宽假设下的 AdaGrad 收敛性

重新审视 AdaGrad 与动量的收敛性，研究非凸光滑优化问题中的噪声模型，分析概率收敛速度及广义平滑性

Feb, 2024