关键词average reward
搜索结果 - 5
  • 具有平均奖励的不安定强盗:打破统一全局吸引子假设
    PDFa year ago
  • AAAI鲁棒平均奖励马尔科夫决策过程
    PDF2 years ago
  • 基于规约的平均回报 MDP 的近似最优策略学习
    PDF2 years ago
  • 折扣强化学习不是优化问题
    PDF5 years ago
  • ICML廉价强盗
    PDF9 years ago
Prev
Next