通过马尔可夫链浓度推导强化学习的遗憾界

Aug, 2018

通过马尔可夫链浓度推导强化学习的遗憾界

Regret Bounds for Reinforcement Learning via Markov Chain Concentration

Ronald Ortner

TL;DR针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程，在简单的乐观算法下，$T$ 步后 $\tilde{O}(\sqrt{t_{mix}SAT})$ 的遗憾度可推导出，这些界限是所有给定参数的最优依赖关系下，普遍的非情节性问题的首个遗憾度界限；唯一可以改善它们的方法是使用可选的混合时间参数。

Abstract

We give a simple optimistic algorithm for which it is easy to derive regret bounds of $\tilde{O}(\sqrt{t_{\rm mix} SAT})$ after $T$ steps in uniformly →