利用 Polyak 步长适应增强策略梯度

Apr, 2024

利用 Polyak 步长适应增强策略梯度

Enhancing Policy Gradient with the Polyak Step-Size Adaption

Yunxiang Li, Rui Yuan, Chen Fan, Mark Schmidt, Samuel Horváth...

TL;DR本文介绍了在强化学习领域中广泛使用且具有收敛保证和稳定性的策略梯度算法，在解决参数敏感性问题的同时，通过实验展示了 Polyak 步长在强化学习中更快的收敛速度和更稳定的策略产生。

Abstract

policy gradient is a widely utilized and foundational algorithm in the field of reinforcement learning (RL). Renowned for its convergence guarant

policy gradient reinforcement learning polyak step-size convergence guarantees stability

发现论文，激发创造

SGD 的随机 Polyak 步长：快速收敛的自适应学习率

本文介绍了一种新颖的随机 Polyak 步长方法，称为 SPS，它可以有效地用于随机梯度下降，特别是在训练超参数化模型时表现良好，并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快，并且与其他优化方法相比表现出色。

Feb, 2020

重新审视 Polyak 步长

通过证明其简单变体可同时在强凸性、平滑性和 Lipschitz 参数的所有范围内，不需要关于这些参数的先验知识，为梯度下降算法获得接近最优的收敛速度，本文重新审视了用于解决凸优化问题的 Polyak 步长调度。

May, 2019

上下文马尔可夫决策过程中的策略梯度方法步长学习

本文提出一种基于元强化学习的新框架 meta-MDP，用于解决强化学习中精细的特定超参数选取问题，通过动态推荐不同策略和任务的步长，实现了在异构环境下选择自适应学习率的优势。

Jun, 2023

通过步长规划方法学习加速

本文介绍了一种名为 Csawg 的新方法，它使用更新经验来学习改进的参数更新方式，并且使用步长规划的方式加速 Gradient Descent 在 ill-conditioned 和 non-convex 问题中的收敛速度。在经过实验验证后，我们的方法获得了比 Nesterov 加速 Gradient 更快的收敛速度，并且在 Rosenbrock 函数的测试中取得了比 Gradient Descent 更快和更准确的收敛效果。

Apr, 2022

Polyak 学习率的随机梯度下降

本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中，并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解，该算法在训练深度神经网络等问题上表现良好。

Mar, 2019

带预处理的 Polyak 步长的随机梯度下降

扩展了 Stochastic Gradient Descent with Polyak Step-size (SPS) 方法，使用 Hutchinson's 方法、Adam 和 AdaGrad 等预处理技术来提高其在糟糕缩放和 / 或病态数据集上的性能。

Oct, 2023

自适应 Polyak 步长和线性搜索的 SGD 算法：稳健收敛和方差降低

该研究提出了两种新的变体的随机 Polyak 步长和随机线性搜索算法，名为 AdaSPS 和 AdaSLS，它们保证了在非插值设置下的收敛，并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外，通过引入方差缩减技术，这些算法能够在次优情况下进行梯度评估，达到 O（ε）次优性，从而改进了非插值区域 AdaSPS 和 AdaSLS 的较慢 O（1/ε^2）收敛速度。实验验证了算法的理论有效性和稳健性。

Aug, 2023

带有动量的 Polyak 步骤的复杂度保证

本文通过研究一种基于 Polyak 步骤的方法，使得在平滑强凸最优化问题中，即使没有强凸性参数知识，也可以获得简单的带加速收敛率的优化方法，并在此基础上给出了具有收敛保证的带 Polyak 步骤和动量的加速梯度方法。

Feb, 2020

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

指数和余弦步长的再审视：简易性、适应性和性能

研究指出指数步长和余弦步长是自适应噪声水平的，不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现，实验证明它们最多只需要调整两个超参数就可达到优秀的表现。

Feb, 2020