BriefGPT.xyz
Ask
alpha
关键词
offline-to-online rl
搜索结果 - 3
ICML
线下到线上强化学习的贝叶斯设计原则
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可
→
PDF
a month ago
基于不确定性和平滑性的稳健离线到在线强化学习
提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法,通过不确定性和平滑性来增强离线策略,并在在线适应中减少性能下降,实验结果表明其在促进稳定的离线到在线学习方面具有优越性。
PDF
9 months ago
基于集成的离线到在线强化学习:从悲观学习到乐观探索
提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线
→
PDF
a year ago
Prev
Next