Feb, 2015

一致风险度量的政策梯度

TL;DR该研究拓展了风险敏感的强化学习算法的范围,利用凸优化和演员-评论家(actor-critic)模型处理动态风险测量,提出了一种统一的方法来应对风险敏感的策略梯度方法。