黎曼自适应优化方法

ICLROct, 2018

Riemannian Adaptive Optimization Methods

Gary Bécigneul, Octavian-Eugen Ganea

TL;DR将 Adam、Adagrad 和 Amsgrad 等流行的自适应随机优化方法扩展到里曼流形上面的困难以及基于里曼流形的优化算法和渐进结果的提出，同时在实验中证明该算法比原算法更快且表现更好。

Abstract

Several first order stochastic optimization methods commonly used in the Euclidean domain such as stochastic gradient descent (SGD), accelerated gradient descent or variance reduced methods have already been adapted to certain Riemannian settings. However, some of the most popular of t

stochastic optimization riemannian manifolds adaptive schemes geodesically convex embeddings

发现论文，激发创造

矩阵流形上的黎曼适应性随机梯度算法

该研究提出了一种针对 Riemannian 矩阵流形的新型随机梯度算法，通过适应梯度的行和列子空间，使算法能够在保留流形丰富结构的同时进行优化，并证明了算法的收敛性和收敛速率。

Feb, 2019

黎曼随机优化方法避免严格鞍点

对于现代机器学习应用中的最小化问题，研究了基于提纯的方法族，证明了在渐进条件下，从任意初始状态出发，研究中的策略几乎总能避免严格鞍点 / 子流形，从而为在流形上使用梯度方法提供了重要的可靠性验证。

Nov, 2023

在黎曼流形上的均值随机梯度下降

本文提出了一个基于 Riemann 流形的梯度下降法以及一个几何性质框架，并探讨了如何将慢速收敛的结果转化为快速收敛结果。此外，我们将该框架应用于几何上强凸和欧几里得非凸问题，以及流式 $k$-PCA 问题，并展示了如何加速随机幂法的优化率。

Feb, 2018

黎曼流形上的随机梯度下降

本文介绍了一种扩展随机梯度下降算法来优化在 Riemannian 流形上定义的代价函数的方法，并通过四个例子展示了其潜在的应用，其中包括派生和数字测试的一种新型的协方差矩阵的聚集算法。

Nov, 2011

黎曼流形上的优化技术

本篇文章提出了新的方法，以解决施加在黎曼流形上的最优化问题，并将欧几里得空间上的一些优化技术推广到黎曼流形上。文章展示了几个算法，并分析了它们的收敛性质，其中包括可以被认为是黎曼流形上的牛顿方法和共轭梯度方法的两种算法，分别表现出二次和超线性收敛性。此外，还给出了一些在某些黎曼流形上的实例以及数字实验的结果。

Jul, 2014

矩阵流形上的 Riemannian 坐标下降算法

提出了在矩阵流形上开发计算效率高的坐标下降（CD）算法的一般框架，从而允许在每次迭代中仅更新少数变量，并符合流形约束。通过一阶目标函数的近似实现了更高效的变体，分析了它们的收敛性和复杂性，并在多个应用中验证了它们的有效性。

Jun, 2024

将 Adam 推广到流形上以高效训练 Transformers

通过利用特殊结构（如 Stiefel 流形、simplectic Stiefel 流形、Grassmann 流形和 simplectic Grassmann 流形）对神经网络优化进行降维处理，成功地将 Adam 算法推广到了流形层面上，并将其用于训练转换器，可以有效地加速训练过程。

May, 2023

在黎曼流形上的游戏中，无关曲率的最终迭代收敛

该研究通过研究 Riemannian 梯度下降算法，证明了无论流形的曲率如何，只要保持测地强单调性，通过使用曲率不明感的步长，可以实现曲率无关和线性的最后一次迭代收敛率。

Jun, 2023

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

走向黎曼加速梯度方法

在弯曲流形环境下，提出了 Riemann 版 Nesterov 加速梯度算法 (RAGD)，并证明了在极小值附近 (半径取决于流形的截面曲率和条件数)，RAGD 算法具有加速收敛性，相比 Liu 等人 (2017) 的算法少了对非线性方程的精确求解，而且具有构造性和可计算性，所使用的证明利用了一个新的估计序列和关于非线性度量扭曲的新界定，两个思想可能是独立有趣的。

Jun, 2018