在MDPs中进行CVaR优化的算法

Jun, 2014

Algorithms for CVaR Optimization in MDPs

Yinlam Chow, Mohammad Ghavamzadeh

TL;DR本文研究在马尔可夫决策过程中的均值-CVaR优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Abstract

In many sequential decision-making problems we may want to manage risk by minimizing some measure of variability in costs in addition to minimizing a standard criterion. conditional value-at-risk (CVaR) is a relatively new risk measure that addresses some of the shortcomings of the wel