强化学习中，行动相关基线的幻象

ICMLFeb, 2018

强化学习中，行动相关基线的幻象

The Mirage of Action-Dependent Baselines in Reinforcement Learning

George Tucker, Surya Bhupatiraju, Shixiang Gu, Richard E. Turner, Zoubin Ghahramani...

TL;DR通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Abstract

policy gradient methods are a widely used class of model-free reinforcement learning algorithms where a state-dependent baseline is used to reduce gradient estimator variance. Several recent papers extend the baseline to depend on both the state and action and suggest that this signifi

policy gradient methods state-action-dependent baselines gradient estimator variance sample efficiency value function parameterization

发现论文，激发创造

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

策略梯度优化中基线的作用

本研究探讨了在策略优化方法中 baseline 的作用，发现使用 state value baseline 可以增强算法的收敛性，但并不是通过减小方差来实现的。相反，value baseline 的主要作用在于抑制 update 的激进程度，进而实现算法的可控性和收敛性。

Jan, 2023

输入驱动环境下的强化学习方差缩减

研究了输入驱动环境中的强化学习问题，提出了一种无偏差、输入依赖的基线模型及元学习方法，实验结果表明相较于状态依赖的基线模型，输入依赖的模型可以提高训练稳定性并得到更好的训练结果。

Jul, 2018

Stein 恒等式在策略优化中的基于行动的控制变量

本研究提出了一种控制变量方法，通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题，实验证明该方法显著提高了最先进的策略梯度方法的样本效率。

Oct, 2017

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

轨迹控制变量在策略梯度方法中的方差减少应用

该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷，并提出了一种新的、递归构造的迹线方法，用于在合理假设下进一步降低方差。

Aug, 2019

Off-OAB：具有最佳行动相关基线的离策略策略梯度方法

我们提出了一种基于最优行为相关基线的离策略策略梯度方法（Off-OAB），以减轻离策略策略梯度估计器的高方差问题，提高训练过程中的样本效率。在六个代表性任务上对 Off-OAB 方法进行评估，结果表明其在大多数任务上明显优于现有方法。

May, 2024

具有动作和状态相关信号方差的自适应贝叶斯学习

这篇论文提出了一个先进的贝叶斯学习框架，将动作和状态相关的信号方差纳入决策模型中，用于理解各种经济系统中的复杂数据反馈循环和决策过程。通过一系列例子，我们展示了这种方法在不同环境下的多功能性，从稳定环境中的简单贝叶斯更新到涉及社会学习和状态相关不确定性的复杂模型。该论文在理解经济模型中数据、动作、结果和固有不确定性之间微妙相互作用方面有独特的贡献。

Nov, 2023

一种针对策略梯度的测度导数的实证分析

本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用，结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。

Jul, 2021