一种混合随机策略梯度算法用于强化学习

Mar, 2020

一种混合随机策略梯度算法用于强化学习

A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning

Nhan H. Pham, Lam M. Nguyen, Dzung T. Phan, Phuong Ha Nguyen, Marten van Dijk...

TL;DR提出了一种新的混合随机策略梯度估计器，并使用此估计器开发了一种新的混合随机策略梯度算法（ProxHSPGA）来解决复合策略优化问题，该算法可以处理策略参数上的约束或规则化，已经在强化学习中的一些示例上进行了评估和验证。

Abstract

We propose a novel hybrid stochastic policy gradient estimator by combining an unbiased policy gradient estimator, the REINFORCE estimator, with another biased one, an adapted SARAH estimator for policy optimization

stochastic policy gradient estimator hybrid algorithm policy optimization constraint handling reinforcement learning

发现论文，激发创造

随机非凸优化的混合随机梯度下降算法

本文提出了使用混合随机估算器设计的混合随机梯度算法来解决非凸期望问题，该算法可以获得更好的复杂度，同时考虑不同的扩展，如使用自适应步长和不同的迭代方式。在使用两个非凸模型进行了多个数据集上的比较。

May, 2019

一种最优混合方差减小算法用于随机复合非凸优化

提出了一种新的混合方差缩减近端梯度法，它使用随机梯度评估来代替早期方法中的 $SARAH$，从而实现每次迭代少使用一个随机梯度，在达到了随机梯度评估的最优随机预测复杂度界限的同时很简单。

Aug, 2020

一种随机复合非凸优化的混合随机优化框架

提出一种新方法解决一类复合随机非凸优化问题，通过组合两种随机估计量形成混合估计量，将之应用于多种变体的随机梯度法中以达到最优的复杂度界限。

Jul, 2019

ProxSARAH：随机复合非凸优化的高效算法框架

提出了一种新的随机一阶算法框架来解决随机复合非凸优化问题，该算法覆盖了有限和期望设置，其中算法仅需要非凸目标项的平均光滑性假设和附加的有界方差假设，并证明了算法可以实现最佳复杂度界限。

Feb, 2019

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

斯坦变分策略梯度

本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Apr, 2017

预期策略梯度

论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度，通过对动作的积分来估算梯度，证明了其可以降低梯度估算的方差，对于高斯探索，通过设置动作的海森矩阵的指数作为协方差比标准探索更优，在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.

Jun, 2017