BriefGPT.xyz
Ask
alpha
关键词
bayesian design principles
搜索结果 - 1
ICML
线下到线上强化学习的贝叶斯设计原则
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可
→
PDF
a month ago
Prev
Next