Feb, 2021

Q-Learning算法是否达到Minimax最优性?一种紧凑的样本复杂度分析

TL;DR本文研究Q-learning同步和异步情况下的样本复杂性和子优秀性,并展示在异步情况下的样本复杂性更强,Q-learning算法是严格亚最优的。