May, 2020

通过生成模型在模型为基础的强化学习中突破样本量限制

TL;DR研究强化学习的样本效率,证明了两种算法的最小最优性,同时实现了目标准确率的最小最优样本复杂度,这是目前首次提供涵盖整个样本范围的最小最优保证。