具有递归方差降低的高效策略梯度方法

Sep, 2019

具有递归方差降低的高效策略梯度方法

Sample Efficient Policy Gradient Methods with Recursive Variance Reduction

Pan Xu, Felicia Gao, Quanquan Gu

TL;DR该研究旨在提高强化学习中采样效率，通过提出一种名为SRVR-PG的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Abstract

Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing →

发现论文，激发创造

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

随机方差减小策略梯度的收敛性改进分析

研究改进了SVRPG方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

策略梯度寻找二阶稳定点的样本复杂度

本研究提出一种基于强化学习的优化方法，并使用二阶导数的技术证明了其收敛到二阶稳定点，从而避免了算法陷入鞍点或局部最小值。

Dec, 2020

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为TSIVR-PG的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对TSIVR-PG进行了理论分析。

Feb, 2021

普通策略梯度的一般样本复杂性分析

本文使用最近为非凸优化分析SGD开发的工具，获得了vanilla policy gradient（PG）的收敛性和样本复杂性保证。

Jul, 2021

基于动量的策略梯度算法与二阶信息

提出一种名为SHARP的基于二阶信息和具有时间变化的学习率的动量随机梯度下降方法，实现一阶可压缩的稳定点，无需重要性采样，具有O（1 / t ^ {2/3}）的误差估计方差下降速率。实验结果表明该算法在控制任务上比现有算法效果更好。

May, 2022

方差降低的保守策略迭代

本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从O（ε^-4）到O（ε^-3）的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下，该算法在采样O（ε^-2）次后享有ε-全局最优性，这改善了以前已经建立的O（ε^-3）样本要求。

Dec, 2022

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态-动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

高效逃离非凸政策优化中的鞍点

我们提出了一种使用Hessian矩阵-向量积的方差约简二阶方法，其样本复杂度为~O(ε^(-3))，并收敛于近似二阶稳定点(SOSP)。该方法通过使用HVP项在不使用IS权重的情况下改善了达到近似SOSPs的最佳已知样本复杂度的速率，实验结果表明该算法优于现有技术，并对随机种子变化更稳健。

Nov, 2023

策略梯度与主动重要性抽样

通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化，结合防御性重要性采样，我们提供了一个迭代算法，理论上分析了该算法的收敛速度，并提供了经过数值验证的实际版本，展示了在策略梯度估计方差和学习速度方面的优势。

May, 2024