策略梯度方法的平滑化效果

May, 2024

Mollification Effects of Policy Gradient Methods

Tao Wang, Sylvia Herbert, Sicun Gao

TL;DR通过研究，我们建立了深度强化学习中的策略梯度方法和解决反向热方程之间的等价性，并发现了策略梯度方法在随机性环境下的局限性，从而阐明了它对探索的影响和不同方面的效果。

Abstract

policy gradient methods have enabled deep reinforcement learning (RL) to approach challenging continuous control problems, even when the underlying systems involve highly nonlinear dynamics that generate complex non-smooth optimization landscapes. We develop a rigorous framework for un

policy gradient methods non-smooth optimization landscapes stochastic objective backward heat equations exploration with stochastic policies

发现论文，激发创造

政策优化中的分形景观

深度强化学习中，政策梯度是连续领域的核心，但在实践中往往观察到政策梯度训练在许多原因下可能失败，我们提出了一个框架来理解政策梯度方法的一种固有局限性：对于某些类别的马尔可夫决策过程（MDPs），策略空间中的优化景观可能极其非平滑或者呈分形结构，导致不存在可估计的梯度。我们借鉴混沌理论和非平滑分析技术，并分析了政策优化目标的最大 Lyapunov 指数和 H"older 指数。此外，我们开发了一种实用方法，通过采样来估计目标函数的局部平滑性，以识别训练过程中是否遇到分形景观。我们通过实验展示了如何通过这种分形景观解释政策优化的一些失败案例。

Oct, 2023

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

梯度下降优化在策略梯度方法中的实证分析：我的最优解去哪了？

本论文研究不同的梯度下降优化方法对深度强化学习的影响，并发现适应性优化器有一个有效学习率的狭窄窗口，同时动量的有效性会因环境属性而异，为深度强化学习算法的优化提供了新的思路和建议。

Oct, 2018

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

策略梯度算法通过延续隐式优化

本研究提供了关于策略梯度算法的新的理论解释和证明。同时，文章还提出，策略梯度算法中的探索是计算当前政策回报的连续，而策略的方差应该是适应历史的函数，以避免局部极值，而不是为了最大化政策的回报。

May, 2023

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

策略梯度方法的全局最优性保证

该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响，并且当这些条件变强时，可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。

Jun, 2019

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

泛用效用的强化学习变分策略梯度方法

该研究通过引入泛函的方法，提出了一种新的策略梯度算法，用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题，并证明了其全局收敛性和收敛速度。

Jul, 2020