AAAIMar, 2023

离线在线强化学习的自适应策略学习

TL;DR本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。