AAAIApr, 2014

通过采样优化 CVaR

TL;DR基于条件期望的公式,我们提出了一种新的基于采样的 CVaR 梯度估计器,类似于似然比方法。我们分析了估计器的偏差,并证明了相应随机梯度下降算法的收敛性,使 CVaR 优化可以在新的领域应用。例如,我们考虑一个强化学习应用,为 Tetris 游戏学习风险敏感的控制器。