Jan, 2019

带有UCB探索的Q-learning对于无限时域MDP具有样本效率

TL;DR本文提出一种基于UCB探索策略的Q学习算法并将其应用于无限时间序列的马尔可夫决策问题,实验结果表明算法的探索样本复杂度的上限为O(SA/ε²(1-𝛾)⁷),此外该算法还可提高之前深度Q学习的表现。