BriefGPT.xyz
Ask
alpha
关键词
robust offline-to-online algorithm
搜索结果 - 1
基于不确定性和平滑性的稳健离线到在线强化学习
提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法,通过不确定性和平滑性来增强离线策略,并在在线适应中减少性能下降,实验结果表明其在促进稳定的离线到在线学习方面具有优越性。
PDF
9 months ago
Prev
Next