ICMLJun, 2021

连续状态空间中的样本高效强化学习:超越线性的视角

TL;DR提出了 Effective Planning Window(EPW)条件,并提供一种算法来证明满足该条件的 MDPs 具有有效的样本使用率,该条件是在 RL 中不需要假设线性结构的一种结构性条件。