Apr, 2025

回报上限:样本高效的条件风险价值策略梯度优化

TL;DR本文针对使用策略梯度优化条件风险价值(CVaR)时,现有方法大量丢弃轨迹导致样本效率低的问题,提出通过对训练中使用的轨迹总回报进行上限设定来重新表述CVaR优化问题的方法。实验证明,该方法在多个环境中相较基线显著提高了性能。