May, 2024

在无先验知识的平均奖励马尔可夫决策过程中寻找良好的策略

TL;DR我们回顾平均奖励马尔可夫决策过程(MDP)中 ε-最优策略的识别,并提出了一种新算法,在小 ε 范围内其样本复杂度为 SAD/ε^2;此外,我们还提出了一种在线算法,其样本复杂度为 SAD^2/ε^2,并且提出了一种有前景的基于数据相关的停止准则的新方法以进一步减小此样本复杂度界限。