ICLROct, 2022

混合强化学习:利用离线和在线数据都可使强化学习更加高效

TL;DR本文介绍一种混合强化学习算法 Hy-Q,利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。