BriefGPT.xyz
Ask
alpha
关键词
ooo framework
搜索结果 - 1
离线训练用于在线 RL: 解耦策略学习以减轻探索偏见
在在线 RL 或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架,通过在在线微调结束时进行离线训练来恢复更好的策略。
PDF
9 months ago
Prev
Next