Sep, 2023
基于不确定性和平滑性的稳健离线到在线强化学习
Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness
Xiaoyu Wen, Xudong Yu, Rui Yang, Chenjia Bai, Zhen Wang
TL;DR提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法,通过不确定性和平滑性来增强离线策略,并在在线适应中减少性能下降,实验结果表明其在促进稳定的离线到在线学习方面具有优越性。