Jan, 2023

鲁棒平均奖励马尔科夫决策过程

TL;DR本篇论文研究鲁棒平均回报MDP问题,旨在找到一种策略,使其在不确定性的MDP集合中的最坏平均回报最优化。作者探讨了利用折扣MDP实现这个问题,证明了当折扣因子趋近于1时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规划方法。同时,也考虑了直接处理鲁棒平均回报MDP问题的情况,并导出了其鲁棒Bellman方程,设计了一种鲁棒相对价值迭代算法来求解其策略。