Oct, 2023

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

TL;DR在在线 RL 或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架,通过在在线微调结束时进行离线训练来恢复更好的策略。