Aug, 2018

通过马尔可夫链浓度推导强化学习的遗憾界

TL;DR针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程,在简单的乐观算法下,$T$ 步后 $\tilde {O}(\sqrt {t_{mix} SAT})$ 的遗憾度可推导出,这些界限是所有给定参数的最优依赖关系下,普遍的非情节性问题的首个遗憾度界限;唯一可以改善它们的方法是使用可选的混合时间参数。