AAAIJan, 2023

鲁棒平均奖励马尔科夫决策过程

TL;DR本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规划方法。同时,也考虑了直接处理鲁棒平均回报 MDP 问题的情况,并导出了其鲁棒 Bellman 方程,设计了一种鲁棒相对价值迭代算法来求解其策略。