Jun, 2020

异步Q学习的样本复杂度:更精确的分析和降低方差

TL;DR该研究通过异步Q-learning算法,在马尔科夫决策流程中的样本轨迹中学习最优动作价值函数,给出了基于L∞的样本复杂度分析及等式组,并在此基础上提出一种新的方差缩减技术,进一步提高了算法的效率。