策略评估的随机方差缩减方法

ICMLFeb, 2017

Stochastic Variance Reduction Methods for Policy Evaluation

Simon S. Du, Jianshu Chen, Lihong Li, Lin Xiao, Dengyong Zhou

TL;DR本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Abstract

policy evaluation is a crucial step in many reinforcement-learning procedures, which estimates a value function that predicts states' long-term value under a given policy. In this paper, we focus on policy evaluation

policy evaluation reinforcement learning linear function approximation saddle-point problem stochastic variance reduction methods

发现论文，激发创造

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

方差降低的保守策略迭代

本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O（ε^-4）到 O（ε^-3）的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下，该算法在采样 O（ε^-2）次后享有 ε- 全局最优性，这改善了以前已经建立的 O（ε^-3）样本要求。

Dec, 2022

鞍点问题的随机方差缩减方法

提出了一种新的随机优化算法，可以高效地解决凸 - 凹二次问题，并适用于更广泛类别的问题，该算法以局部更新的形式实现，可以使用非均匀采样来加速算法。

May, 2016

无模型 LQR 的 Oracle 复杂度减小：一种随机方差减小策略梯度方法

通过随机方差缩减策略梯度方法，我们研究了离散时间线性二次调节器（LQR）问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法，结合了一点和两点估计的方差缩减算法，在 β ∈ (0,1) 的情况下，仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。

Sep, 2023

泛用效用的强化学习变分策略梯度方法

该研究通过引入泛函的方法，提出了一种新的策略梯度算法，用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题，并证明了其全局收敛性和收敛速度。

Jul, 2020

随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

本文研究了马尔可夫噪声下的随机泛型不等式问题，并提出了用于强化学习中的随机策略评估问题的算法，包括改进的标准 TD 算法和快速 TD 算法等。

Nov, 2020

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为 TSIVR-PG 的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对 TSIVR-PG 进行了理论分析。

Feb, 2021