Jun, 2014

在MDPs中进行CVaR优化的算法

TL;DR本文研究在马尔可夫决策过程中的均值-CVaR优化问题,并提出了策略梯度和演员评论算法,以在局部风险敏感的最优策略中更新策略参数,解决了一个最优停止问题。