May, 2018
当简单探索具有样本效率:确定随机探索达到PAC RL算法的充分条件
When Simple Exploration is Sample Efficient: Identifying Sufficient
Conditions for Random Exploration to Yield PAC RL Algorithms
TL;DR本研究提出了基于随机游走探索的Q学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。