ICMLJun, 2021
连续状态空间中的样本高效强化学习:超越线性的视角
Sample Efficient Reinforcement Learning In Continuous State Spaces: A Perspective Beyond Linearity
Dhruv Malik, Aldo Pacchiano, Vishwak Srinivasan, Yuanzhi Li
TL;DR提出了 Effective Planning Window(EPW)条件,并提供一种算法来证明满足该条件的 MDPs 具有有效的样本使用率,该条件是在 RL 中不需要假设线性结构的一种结构性条件。