May, 2018

当简单探索具有样本效率:确定随机探索达到 PAC RL 算法的充分条件

TL;DR本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。