Oct, 2023

政策优化中的分形景观

TL;DR深度强化学习中,政策梯度是连续领域的核心,但在实践中往往观察到政策梯度训练在许多原因下可能失败,我们提出了一个框架来理解政策梯度方法的一种固有局限性:对于某些类别的马尔可夫决策过程(MDPs),策略空间中的优化景观可能极其非平滑或者呈分形结构,导致不存在可估计的梯度。我们借鉴混沌理论和非平滑分析技术,并分析了政策优化目标的最大 Lyapunov 指数和 H"older 指数。此外,我们开发了一种实用方法,通过采样来估计目标函数的局部平滑性,以识别训练过程中是否遇到分形景观。我们通过实验展示了如何通过这种分形景观解释政策优化的一些失败案例。