Jul, 2016

后验采样在强化学习中为何优于乐观法?

TL;DR通过后验采样强化学习实现了比乐观主义算法(如 UCRL2)显着更好的效果,并建立了一个新的贝叶斯期望遗憾界,优于以往任何强化学习算法,该界为 O (H√SAT)。