Oct, 2023

当下样本独立时,瑕疵无关的增强学习何时具有统计追踪性?

TL;DR我们研究了对所有政策类 Pi 进行不可知 PAC 强化学习问题:在与一个未知的具有潜在庞大状态和动作空间的 MDP 交互的情况下,需要多少轮才能学习到相对于 Pi 的 epsilon - 次优政策?为此,我们引入了一种新的复杂性度量,称为生成能力,它仅依赖于政策类 Pi 而与 MDP 动力学无关。通过一个生成模型,我们证明了对于任何政策类 Pi,有界的生成能力表征了 PAC 可学习性。然而,对于在线 RL 来说,情况要复杂些。我们展示了存在一个具有有界生成能力的政策类 Pi,需要超多项式数量的样本来进行学习。这揭示了在生成访问和在线访问模型之间(以及在线访问下的确定性 / 随机 MDPs 之间)对于不可知学习能力的令人惊讶的区别。在积极方面,我们确定了一种额外的向日葵结构,它与有界生成能力一起,通过一种名为 POPLER 的新算法实现了统计高效的在线 RL,该算法借鉴了经典的重要性采样方法以及无奖励探索中可达状态识别和政策评估技术。