Mar, 2018
MDP 中无折扣强化学习的方差感知遗憾界
Variance-Aware Regret Bounds for Undiscounted Reinforcement Learning in MDPs
Mohammad Sadegh Talebi, Odalric-Ambrym Maillard
TL;DR本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。