Mar, 2023

将模仿学习和在线强化学习桥接:一篇乐观的故事

TL;DR本研究提出了一种基于离线数据集的RL算法,结合了RL和模仿学习的iRLSVI算法,可显著减少后悔度。