Mar, 2018

MDP 中无折扣强化学习的方差感知遗憾界

TL;DR本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。