关键词scalar rewards
搜索结果 - 2
  • 最优奖励标注:连接离线偏好与基于奖励的强化学习
    PDF22 days ago
  • 标量奖励不足够:对 Silver、Singh、Precup 和 Sutton(2021)的回应
    PDF3 years ago
Prev
Next