一种针对策略梯度的测度导数的实证分析

Jul, 2021

一种针对策略梯度的测度导数的实证分析

An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients

João Carvalho, Davide Tateo, Fabio Muratore, Jan Peters

TL;DR本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用，结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。

Abstract

reinforcement learning methods for robotics are increasingly successful due to the constant development of better policy gradient techniques. A precise (low variance) and accurate (low bias) gradient estimator is

reinforcement learning policy gradient likelihood ratio trick reparametrization trick measure-valued derivative

发现论文，激发创造

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

统计高效的离线策略梯度

本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法，在不需要参数假设的情况下实现了可行均方误差的渐进下界，并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后，我们证明了当我们朝着新的策略梯度方向迈出步伐时，我们接近稳态点的速度是有保证的。

Feb, 2020

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

利用残差方差在深度策略梯度中学习价值函数

提供了一种新的方法来训练演员 - 评论家框架中的评论家，使用新的状态 - 值函数逼近，并相对于平均值学习状态（响应地状态 - 动作对）的值，而非如传统的演员 - 评论家算法所学习的绝对值，这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进，特别是在奖励稀疏的任务中。

Oct, 2020

一致风险度量的政策梯度

该研究拓展了风险敏感的强化学习算法的范围，利用凸优化和演员 - 评论家（actor-critic）模型处理动态风险测量，提出了一种统一的方法来应对风险敏感的策略梯度方法。

Feb, 2015

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

风险厌恶策略梯度的一种替代方案：基尼偏差

采用 Gini 偏差作为替代风险度量的政策梯度算法，可以缓解方差风险度量的局限性，并在风险规避领域取得高回报、低风险的可靠策略。

Jul, 2023