Jun, 2021

连续状态空间中的样本高效强化学习:超越线性的视角

TL;DR提出了Effective Planning Window(EPW)条件,并提供一种算法来证明满足该条件的MDPs具有有效的样本使用率,该条件是在RL中不需要假设线性结构的一种结构性条件。