Mar, 2024

简化混合策略参数化的 CVaR 优化样本效率改进

TL;DR使用混合策略参数化的方法解决了利用策略梯度来优化 CVaR 时的样本效率问题,实证研究表明该方法在各个基准领域中非常有效。