Nov, 2022

利用离线数据进行在线强化学习

TL;DR本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL 和脱机 RL 之间的区别。