AAAINov, 2022

线性函数逼近离线强化学习的基于实例的上界

TL;DR本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法,该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下,该算法提供了一个快速率,即使在自适应采集的离线数据中,也能够实现绝对零的次优误差和 O(1 / K)的较低界限。