Feb, 2022

使用离线演示的指导,稀疏奖励下的强化学习

TL;DR该论文中,我们提出了一种基于利用离线演示数据的算法:学习在线指导离线(LOGO),可以在稀疏奖励和不完整观测的情况下进行更快、更有效的在线强化学习,并且可以在探索阶段减少迭代次数。