Jan, 2022
折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架
A unified algorithm framework for mean-variance optimization in discounted Markov decision processes
Shuai Ma, Xiaoteng Ma, Li Xia
TL;DR用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。