回报上限：样本高效的条件风险价值策略梯度优化

Apr, 2025

回报上限：样本高效的条件风险价值策略梯度优化

Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation

Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes

TL;DR本文针对使用策略梯度优化条件风险价值（CVaR）时，现有方法大量丢弃轨迹导致样本效率低的问题，提出通过对训练中使用的轨迹总回报进行上限设定来重新表述CVaR优化问题的方法。实验证明，该方法在多个环境中相较基线显著提高了性能。

Abstract

When optimising for conditional value at risk (CVaR) using policy gradients (PG), current meth- ods rely on discarding a large proportion of tra- jectories, resulting in poor →