Feb, 2024

在线基于模型的Q学习的有限时间误差分析与放松采样模型

TL;DR通过理论分析和实证评估,本文探讨了当集成模型为基础的方法时,$Q$-学习在样本复杂度方面相对其无模型对应物而言的样本效率的条件。