Nov, 2024

马尔可夫决策过程中的累积奖励集中性

TL;DR本文研究了马尔可夫决策过程(MDP)中累积奖励的集中性特性,旨在填补现有文献在这一领域的不足。我们提出了一种统一的方法来表征MDP中的奖励集中性,涵盖了无限期和有限期的设置,发现了样本路径中不同静态策略之间奖励差异的行为及其对学习策略后悔率定义的影响,从而为MDP的分析提供了新的视角。