BriefGPT.xyz
Apr, 2025
回报上限:样本高效的条件风险价值策略梯度优化
Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation
HTML
PDF
Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes
TL;DR
本文针对使用策略梯度优化条件风险价值(CVaR)时,现有方法大量丢弃轨迹导致样本效率低的问题,提出通过对训练中使用的轨迹总回报进行上限设定来重新表述CVaR优化问题的方法。实验证明,该方法在多个环境中相较基线显著提高了性能。
Abstract
When optimising for conditional value at risk (
CVaR
) using
policy gradients
(PG), current meth- ods rely on discarding a large proportion of tra- jectories, resulting in poor
→