Feb, 2021

通过双方差降低近似最优离线强化学习

TL;DR本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减,其能够证明在离线数据情况下,在有限时间内获得最优策略,同时在某些环境设定下具有最优样本复杂度,为离线强化学习的发展提供了新方案。