Jan, 2022

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

TL;DR用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。