Jun, 2019

通过评估最优偏置函数实现强化学习的遗憾最小化

TL;DR基于 “面对不确定性的乐观原则” 的算法,使用有限状态 - 动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异,该算法在已知 $sp (h^{*})$ 的情况下实现 MDP 的遗憾界为 $\tilde {O}(\sqrt {SAHT})$,这个结果超过了先前的最佳遗憾界 $\tilde {O}(S\sqrt {AHT})$,并且匹配了遗憾下界。此外,对于有限直径 $D$ 的 MDP,我们证明了 $ ilde {O}(\sqrt {SADT})$ 接近于最佳遗憾上界。