May, 2019

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

TL;DR本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。