Jun, 2019

通过分布偏移误差检查预示着的函数逼近$Q$学习的可证明高效性

TL;DR本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法,提出了 DSEC oracle 概念,该算法使用多项式数量的轨迹返回近似最优策略,并可用于设计和分析具有一般函数逼近的强化学习算法。