关键词online rl
搜索结果 - 7
  • 顺序任务设置中最小化局部遗憾的谬误
    PDF4 months ago
  • 使用软自我生成指导学习多样化策略
    PDF5 months ago
  • 当下样本独立时,瑕疵无关的增强学习何时具有统计追踪性?
    PDF9 months ago
  • 利用离线数据进行在线强化学习
    PDF2 years ago
  • 线性奖励塑造的乐观好奇探索和保守利用
    PDF2 years ago
  • 何时信任你的模拟器:动态感知的离线与在线混合增强学习
    PDF2 years ago
  • 策略微调:连接高样本效率离线与在线强化学习
    PDF3 years ago
Prev
Next