Stein 恒等式在策略优化中的基于行动的控制变量

ICLROct, 2017

Stein 恒等式在策略优化中的基于行动的控制变量

Action-depedent Control Variates for Policy Optimization via Stein's Identity

Hao Liu, Yihao Feng, Yi Mao, Dengyong Zhou, Jian Peng...

TL;DR本研究提出了一种控制变量方法，通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题，实验证明该方法显著提高了最先进的策略梯度方法的样本效率。

Abstract

policy gradient methods have achieved remarkable successes in solving challenging reinforcement learning problems. However, it still often suffers from the large variance issue on policy gradient estimation, whic

policy gradient methods reinforcement learning control variate method variance reduction sample efficiency

发现论文，激发创造

轨迹控制变量在策略梯度方法中的方差减少应用

该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷，并提出了一种新的、递归构造的迹线方法，用于在合理假设下进一步降低方差。

Aug, 2019

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

斯坦变分策略梯度

本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Apr, 2017

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

使用大量控制变量的集成进行变分推断

本文介绍了使用控制变量的方法来减少渐变方差的影响，提出了一种贝叶斯风险最小化框架来定量评估这一方法的效果，并表明使用大量控制变量结合的方法显著提高了推理的收敛性。

Oct, 2018

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

反向传播虚空：针对黑盒梯度估计优化控制变量

本研究介绍了一种通用框架，用于学习随机变量的黑盒函数的低方差、无偏梯度估计器，并应用于训练离散潜变量模型以及提出了基于优势演员 - 评论家强化学习算法的无偏、行为条件扩展。

Oct, 2017

Monte Carlo 积分的控制函数

本研究提出了一种基于梯度信息的采样密度的非参数控制变量扩展方法，能够取得显著的方差降低效果，不要求采样密度归一化，相对于传统控制变量法能够更快速地达到固定精度，能够应用于层次模型和基于非线性常微分方程的模型中。

Oct, 2014

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021