ICLRJan, 2024

利用密度比例进行在线强化学习

TL;DR该论文介绍了离线强化学习和在线强化学习的统一理论以及密度比建模在在线强化学习中的存在,并提出了 GLOW 算法和 HyGLOW 算法作为在线探索的方法。