Oct, 2019

线性复合模型集合在强化学习中的样本复杂度

TL;DR本研究提出一种强化学习算法,使用一组预先训练的不准确模拟器的状态依赖线性组合来逼近真实环境,并且在未知参数数量的多项式样本复杂度下,无需状态空间或动作空间大小的限制下可获得近似最优策略,同时还讨论了模型选择时的困难情况并提供了一种经过证明的有效算法。