基于梯度的强化学习的最优奖励基准线

Jan, 2013

基于梯度的强化学习的最优奖励基准线

The Optimal Reward Baseline for Gradient-Based Reinforcement Learning

Lex Weaver, Nigel Tao

TL;DR研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Abstract

There exist a number of reinforcement learning algorithms which learnby climbing the gradient of expected reward. Their long-runconvergence has been proved, even in partially observableenvironments with non-deterministic actions, and without the need fora system model. However, the var

reinforcement learning gradient ascent reward baseline bias-variance trade-off policy-gradient algorithms

发现论文，激发创造

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

反向传播虚空：针对黑盒梯度估计优化控制变量

本研究介绍了一种通用框架，用于学习随机变量的黑盒函数的低方差、无偏梯度估计器，并应用于训练离散潜变量模型以及提出了基于优势演员 - 评论家强化学习算法的无偏、行为条件扩展。

Oct, 2017

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021

针对离线策略上下文主动学习任务的最佳基线修正

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024

策略梯度优化中基线的作用

本研究探讨了在策略优化方法中 baseline 的作用，发现使用 state value baseline 可以增强算法的收敛性，但并不是通过减小方差来实现的。相反，value baseline 的主要作用在于抑制 update 的激进程度，进而实现算法的可控性和收敛性。

Jan, 2023

减少方差的深度强化学习奖励估计

该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号，这种方法能够提高算法的稳定性和性能表现，并且应用范围广泛。

May, 2018

基于方差相关风险标准的策略梯度

本文提出了一种新的公式来计算环节任务成本的方差，并使用该公式提出了基于局部策略梯度算法的风险管理框架，进一步研究了涉及成本期望和成本方差的准则，最终在投资组合计划问题中应用。

Jun, 2012

泛用效用的强化学习变分策略梯度方法

该研究通过引入泛函的方法，提出了一种新的策略梯度算法，用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题，并证明了其全局收敛性和收敛速度。

Jul, 2020