BriefGPT.xyz
Ask
alpha
关键词
ensemble-based exploration mechanisms
搜索结果 - 1
基于集成的离线到在线强化学习:从悲观学习到乐观探索
提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线
→
PDF
a year ago
Prev
Next