Dec, 2023

梯度信息启发式近端策略优化

TL;DR通过将可微分环境的解析梯度与Proximal Policy Optimization(PPO)算法相结合,我们引入了一种新颖的策略学习方法。通过自适应修改alpha值,我们可以有效管理学习过程中解析策略梯度的影响,并提出了评估解析梯度方差和偏差的度量标准,在检测到高方差或偏差时减少对这些梯度的依赖。我们的方法在函数优化、物理模拟和交通控制环境等各种场景中胜过基准算法。