Oct, 2022

长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程

TL;DR本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题,利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性,提出了一种策略迭代算法并进行数值实验以证明主要结论。