政策优化中的分形景观

Oct, 2023

Fractal Landscapes in Policy Optimization

Tao Wang, Sylvia Herbert, Sicun Gao

TL;DR深度强化学习中，政策梯度是连续领域的核心，但在实践中往往观察到政策梯度训练在许多原因下可能失败，我们提出了一个框架来理解政策梯度方法的一种固有局限性：对于某些类别的马尔可夫决策过程（MDPs），策略空间中的优化景观可能极其非平滑或者呈分形结构，导致不存在可估计的梯度。我们借鉴混沌理论和非平滑分析技术，并分析了政策优化目标的最大 Lyapunov 指数和 H"older 指数。此外，我们开发了一种实用方法，通过采样来估计目标函数的局部平滑性，以识别训练过程中是否遇到分形景观。我们通过实验展示了如何通过这种分形景观解释政策优化的一些失败案例。

Abstract

policy gradient lies at the core of deep reinforcement learning (RL) in continuous domains. Despite much success, it is often observed in practice that RL training with →

policy gradient deep reinforcement learning optimization landscape fractal landscapes failure cases

发现论文，激发创造

策略梯度方法的平滑化效果

通过研究，我们建立了深度强化学习中的策略梯度方法和解决反向热方程之间的等价性，并发现了策略梯度方法在随机性环境下的局限性，从而阐明了它对探索的影响和不同方面的效果。

May, 2024

连续控制中的政策优化问题：噪声邻域下的回报景观

通过研究回报景观，我们对连续控制的深度强化学习代理的不稳定性行为提供了新的视角，并揭示了一维度的策略质量，最终我们开发了一个分布感知的程序以提高策略的鲁棒性。

Sep, 2023

优化解决方案采样器的组合问题：策略梯度方法的景观

深度神经网络和强化学习方法在解决复杂的组合问题方面取得了显著的实证成果，本文引入了一种新的理论框架来分析这些方法的有效性，回答了存在生成模型能够生成近似最优解、拥有易处理的参数数量以及优化结果无次优静态点等问题，并介绍了一种新的正则化过程，实验证明其有助于解决梯度消失和避免不良静态点的问题。

Oct, 2023

过参数非线性系统和神经网络中的损失景观和优化

本文提出了一种现代观点和一般性的数学框架，用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化，其中包括超参数深度神经网络，并说明这些系统的 PL$^*$ 条件密切相关，这解释了（S）GD 对全局最小值的收敛，并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。

Feb, 2020

梯度下降优化在策略梯度方法中的实证分析：我的最优解去哪了？

本论文研究不同的梯度下降优化方法对深度强化学习的影响，并发现适应性优化器有一个有效学习率的狭窄窗口，同时动量的有效性会因环境属性而异，为深度强化学习算法的优化提供了新的思路和建议。

Oct, 2018

深度策略梯度的深入探讨

研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架，并提出了对最先进方法的细粒度分析。结果表明，深度策略梯度算法的行为经常偏离其驱动框架所预测的行为，这表明了我们对当前方法的了解不足，并提示需要超越当前基准中心的评估方法。

Nov, 2018

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

策略梯度方法的全局最优性保证

该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响，并且当这些条件变强时，可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。

Jun, 2019

熵对策略优化的影响理解

本文研究了使用熵正则化提高强化学习策略优化的方法，探讨了高熵策略能使得优化过程更为平滑，从而帮助穿过局部优化点，但挑战在于设计通用的策略优化算法。

Nov, 2018

离散时间静态输出反馈策略梯度方法的优化景观

静态输出反馈控制中政策梯度方法在离散时间线性时不变系统中的优化性质的分析

Oct, 2023