超越方差减少：理解基线对策略优化的真正影响

Aug, 2020

超越方差减少：理解基线对策略优化的真正影响

Beyond variance reduction: Understanding the true impact of baselines on policy optimization

Wesley Chung, Valentin Thomas, Marlos C. Machado, Nicolas Le Roux

TL;DR本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Abstract

bandit and reinforcement learning (RL) problems can often be framed as optimization problems where the goal is to maximize average performance while having access only to stochastic estimates of the true gradient

bandit reinforcement learning stochastic optimization theory multi-step mdps learning dynamics

发现论文，激发创造

策略梯度优化中基线的作用

本研究探讨了在策略优化方法中 baseline 的作用，发现使用 state value baseline 可以增强算法的收敛性，但并不是通过减小方差来实现的。相反，value baseline 的主要作用在于抑制 update 的激进程度，进而实现算法的可控性和收敛性。

Jan, 2023

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

可证明的基于模型非线性赌博机和强化学习：放弃乐观主义，拥抱虚拟曲率

本文主要研究基于模型的赌博机和强化学习，针对非线性函数逼近，构建了一个可证明收敛至本地最大值的模型 ——ViOlin 算法，提高了样本效率，并在多个具体场景中给出了全局或本地损失的保证。

Feb, 2021

针对离线策略上下文主动学习任务的最佳基线修正

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

输入驱动环境下的强化学习方差缩减

研究了输入驱动环境中的强化学习问题，提出了一种无偏差、输入依赖的基线模型及元学习方法，实验结果表明相较于状态依赖的基线模型，输入依赖的模型可以提高训练稳定性并得到更好的训练结果。

Jul, 2018

梯度下降优化在策略梯度方法中的实证分析：我的最优解去哪了？

本论文研究不同的梯度下降优化方法对深度强化学习的影响，并发现适应性优化器有一个有效学习率的狭窄窗口，同时动量的有效性会因环境属性而异，为深度强化学习算法的优化提供了新的思路和建议。

Oct, 2018

基于 Bandit 反馈的乐观策略优化

本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Feb, 2020