Mar, 2024
简化混合策略参数化的 CVaR 优化样本效率改进
A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization
Yudong Luo, Yangchen Pan, Han Wang, Philip Torr, Pascal Poupart
TL;DR使用混合策略参数化的方法解决了利用策略梯度来优化 CVaR 时的样本效率问题,实证研究表明该方法在各个基准领域中非常有效。