Jun, 2019
通过评估最优偏置函数实现强化学习的遗憾最小化
Regret Minimization for Reinforcement Learning by Evaluating the Optimal
Bias Function
TL;DR基于“面对不确定性的乐观原则”的算法,使用有限状态-动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数$h^{*}$的状态对差异,该算法在已知$sp(h^{*})$的情况下实现MDP的遗憾界为$\tilde{O}(\sqrt{SAHT})$,这个结果超过了先前的最佳遗憾界$\tilde{O}(S\sqrt{AHT})$,并且匹配了遗憾下界。此外,对于有限直径$D$的MDP,我们证明了$ ilde{O}(\sqrt{SADT})$接近于最佳遗憾上界。