关键词target policy
搜索结果 - 3
  • 马尔可夫决策过程中的一致离线评估
    PDFa year ago
  • 强化学习中有用的辅助任务是什么:研究目标策略的影响
    PDF2 years ago
  • KDD使用多个记录器生成的日志赌器反馈进行有效评估
    PDF7 years ago
Prev
Next