BriefGPT.xyz
Nov, 2022
利用离线数据进行在线强化学习
Leveraging Offline Data in Online Reinforcement Learning
HTML
PDF
Andrew Wagenmaker, Aldo Pacchiano
TL;DR
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Abstract
Two central paradigms have emerged in the
reinforcement learning
(RL) community:
online rl
and
offline rl
. In the
→