Jun, 2024

NeoRL:非情节强化学习的高效探索

TL;DR我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL 使用经过良好校准的概率模型,并在对未知动态的认知不确定性方面进行乐观规划。在对系统连续性和有界能量的假设下,我们提供了第一个适用于具有高斯过程动态的一般非线性系统的遗憾边界为 O (β_T√(TΓ_T))。我们将 NeoRL 与其他基准在几个深度 RL 环境上进行比较,并经验证明 NeoRL 实现了最佳平均成本,同时产生了最小的遗憾。