随机递归动量策略梯度方法

Mar, 2020

Stochastic Recursive Momentum for Policy Gradient Methods

Huizhuo Yuan, Xiangru Lian, Ji Liu, Yuren Zhou

TL;DR本文提出一种名为 STORM-PG 的新算法，它采用 SARAH 类型的随机递归方差降低的策略梯度，具有对于 STORM-PG 具有严格的 O（1/ε^3）样本复杂度界限，并避免了其他方差减小的策略梯度方法中存在的大批处理和小批处理之间的交替，从而允许较简单的参数调整，并在数值实验中表现出了与其他策略梯度算法相比的优越性。

Abstract

In this paper, we propose a novel algorithm named STOchastic Recursive Momentum for policy gradient (storm-pg), which operates a SARAH-type stochastic recursive →

storm-pg policy gradient sample complexity variance-reduced numerical experiments

发现论文，激发创造

基于动量的策略梯度算法的全局最优收敛性

本文研究应用动量项的随机策略梯度方法的全局收敛性，并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外，作者提供了分析随机 PG 方法全局收敛速率的通用框架。

Oct, 2021

基于动量的策略梯度方法

本文提出了一种基于动量的策略梯度方法，利用自适应学习率，不需要任何大批量数据，以及基于新的动量方差降低技术和重要性采样，以及力学助理技术，从而提高学习效率。作者证明，该方法具有最佳的样本复杂度，并在实验中验证了其有效性。

Jul, 2020

基于动量的策略梯度算法与二阶信息

提出一种名为 SHARP 的基于二阶信息和具有时间变化的学习率的动量随机梯度下降方法，实现一阶可压缩的稳定点，无需重要性采样，具有 O（1 /t ^ {2/3}）的误差估计方差下降速率。实验结果表明该算法在控制任务上比现有算法效果更好。

May, 2022

基于动量的方差减少在非凸 SGD 中的应用

STORM 是一种新的算法，可以用于非凸优化中的方差缩减技术，其不需要任何 batch，具备自适应学习率，相对其他技术，具备更简单易用的优点。

May, 2019

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

用于非凸优化的随机递归梯度算法

本文研究分析了随机递归梯度算法 (StochAstic Recursive grAdient algoritHm, SARAH) 的 mini-batch 版本，用于解决非凸损失函数的经验损失最小化问题。我们提出了一种子线性收敛率 (对于一般非凸函数) 和一种线性收敛率 (对于梯度主导函数)，这两种方法相比其他现代非凸损失随机梯度算法具有一些优势。

May, 2017

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

一种混合随机策略梯度算法用于强化学习

提出了一种新的混合随机策略梯度估计器，并使用此估计器开发了一种新的混合随机策略梯度算法（ProxHSPGA）来解决复合策略优化问题，该算法可以处理策略参数上的约束或规则化，已经在强化学习中的一些示例上进行了评估和验证。

Mar, 2020

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019