May, 2023

增加覆盖分布的离线强化学习

TL;DR本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。