Sep, 2023

基于不确定性和平滑性的稳健离线到在线强化学习

TL;DR提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法,通过不确定性和平滑性来增强离线策略,并在在线适应中减少性能下降,实验结果表明其在促进稳定的离线到在线学习方面具有优越性。