输入驱动环境下的强化学习方差缩减

Jul, 2018

输入驱动环境下的强化学习方差缩减

Variance Reduction for Reinforcement Learning in Input-Driven Environments

Hongzi Mao, Shaileshh Bojja Venkatakrishnan, Malte Schwarzkopf, Mohammad Alizadeh

TL;DR研究了输入驱动环境中的强化学习问题，提出了一种无偏差、输入依赖的基线模型及元学习方法，实验结果表明相较于状态依赖的基线模型，输入依赖的模型可以提高训练稳定性并得到更好的训练结果。

Abstract

We consider reinforcement learning in input-driven environments, where an exogenous, stochastic input process affects the dynamics of the system. Input processes arise in many applications, including queuing syst

reinforcement learning input-driven environments bias-free baseline meta-learning approach training stability

发现论文，激发创造

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

Stein 恒等式在策略优化中的基于行动的控制变量

本研究提出了一种控制变量方法，通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题，实验证明该方法显著提高了最先进的策略梯度方法的样本效率。

Oct, 2017

轨迹控制变量在策略梯度方法中的方差减少应用

该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷，并提出了一种新的、递归构造的迹线方法，用于在合理假设下进一步降低方差。

Aug, 2019

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

随机动态环境下的反事后价值函数用于方差降低

本篇论文介绍了一种基于信息论的新颖后见价值函数，与常用的状态价值函数相比在随机动态环境下具有更稳定的性能。

Jul, 2021

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

强化学习中尖锐的方差相关界限：随机与确定性环境中的最佳选择

研究马尔可夫决策过程中方差相关的遗憾界限，提出两个新的环境范数并设计了 MVP 算法和参考函数算法进行模型建模和模型自由算法，得到方差相关界限的上界和下界。

Jan, 2023