Apr, 2024

利用 Polyak 步长适应增强策略梯度

TL;DR本文介绍了在强化学习领域中广泛使用且具有收敛保证和稳定性的策略梯度算法,在解决参数敏感性问题的同时,通过实验展示了 Polyak 步长在强化学习中更快的收敛速度和更稳定的策略产生。