针对行动相关分解基线的策略梯度方差缩减

ICLRMar, 2018

针对行动相关分解基线的策略梯度方差缩减

Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

Cathy Wu, Aravind Rajeswaran, Yan Duan, Vikash Kumar, Alexandre M Bayen...

TL;DR本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Abstract

policy gradient methods have enjoyed great success in deep reinforcement learning but suffer from high variance of gradient estimates. The high variance problem is particularly exasperated in problems with long horizons or high-dimensional action spaces. To mitigate this issue, we deri

policy gradient methods variance reduction high-dimensional control problems action-dependent baseline reinforcement learning

发现论文，激发创造

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

Stein 恒等式在策略优化中的基于行动的控制变量

本研究提出了一种控制变量方法，通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题，实验证明该方法显著提高了最先进的策略梯度方法的样本效率。

Oct, 2017

输入驱动环境下的强化学习方差缩减

研究了输入驱动环境中的强化学习问题，提出了一种无偏差、输入依赖的基线模型及元学习方法，实验结果表明相较于状态依赖的基线模型，输入依赖的模型可以提高训练稳定性并得到更好的训练结果。

Jul, 2018

轨迹控制变量在策略梯度方法中的方差减少应用

该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷，并提出了一种新的、递归构造的迹线方法，用于在合理假设下进一步降低方差。

Aug, 2019

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

策略梯度优化中基线的作用

本研究探讨了在策略优化方法中 baseline 的作用，发现使用 state value baseline 可以增强算法的收敛性，但并不是通过减小方差来实现的。相反，value baseline 的主要作用在于抑制 update 的激进程度，进而实现算法的可控性和收敛性。

Jan, 2023

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

Off-OAB：具有最佳行动相关基线的离策略策略梯度方法

我们提出了一种基于最优行为相关基线的离策略策略梯度方法（Off-OAB），以减轻离策略策略梯度估计器的高方差问题，提高训练过程中的样本效率。在六个代表性任务上对 Off-OAB 方法进行评估，结果表明其在大多数任务上明显优于现有方法。

May, 2024

二阶优势信息的策略优化

本文提出了一种基于控制变量和 Rao-Blackwell 定理的策略优化方法，将其融合到一个统一的框架中，以降低高维连续控制任务中的策略梯度估计器方差，并成功将其应用于高维综合设置和 OpenAI Gym 的 MuJoCo 连续控制任务中。

May, 2018

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017