May, 2023

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

TL;DR在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。