关键词optimistic exploration
搜索结果 - 6
  • 无模型的后验采样通过学习率随机化
    PDF8 months ago
  • 乐观陷阱:通过随机化风险准则的分布式强化学习
    PDF8 months ago
  • 离线训练用于在线 RL: 解耦策略学习以减轻探索偏见
    PDF9 months ago
  • 基于模型集合的效率高的强化学习算法:探索与利用
    PDF3 years ago
  • 通过乐观策略搜索和规划实现高效的基于模型的强化学习
    PDF4 years ago
  • 垃圾进去,奖励出来:多臂赌博机中探索的自举方法
    PDF6 years ago
Prev
Next