Mar, 2023

将模仿学习和在线强化学习桥接:一篇乐观的故事

TL;DR本研究提出了一种基于离线数据集的 RL 算法,结合了 RL 和模仿学习的 iRLSVI 算法,可显著减少后悔度。