BriefGPT.xyz
Ask
alpha
关键词
finetunerl
搜索结果 - 1
利用离线数据进行在线强化学习
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL
→
PDF
2 years ago
Prev
Next