Jun, 2023

基于集成的离线到在线强化学习:从悲观学习到乐观探索

TL;DR提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线性能增强,显著优于现有的离线到在线 RL 方法,能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性,学习效率和最终性能。