Aug, 2024
在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性
On Convergence of Average-Reward Q-Learning in Weakly Communicating
Markov Decision Processes
TL;DR本文研究了在平均奖励标准下的马尔可夫决策过程中的强化学习算法,特别关注基于相对价值迭代的Q学习算法,这些算法适用于大状态空间问题。研究延伸了之前的几乎确定收敛性分析,使其适用于更广泛的弱通信MDP,为理论和应用提供了重要的 insights,并证明了算法收敛的集合具有丰富的结构。