Feb, 2023

针对指数代价风险敏感 MDP 的修改策略迭代算法

TL;DR本文针对指数成本的风险敏感MDP问题,首次提供了MPI在有限状态和动作空间中收敛的证明,其收敛证明与已有的折扣和风险中性平均费用问题不同,也提供了风险敏感MDP的近似MPI证明。