Jul, 2024

平均奖励和分段强化学习的乐观Q学习

TL;DR我们提出了一种乐观的Q学习算法,用于在额外假设下的平均奖励强化学习中实现遗憾最小化,该额外假设是对底层MDP的所有策略来说,访问某些频繁状态s0的预期时间是有限的并且上界为H。