关键词preference-based rl
搜索结果 - 6
  • 离线强化学习的偏好调查
    PDF10 days ago
  • 最优奖励标注:连接离线偏好与基于奖励的强化学习
    PDF22 days ago
  • RLHF 是否比标准 RL 更困难?
    PDFa year ago
  • 人在环路强化学习的小样本偏好学习
    PDF2 years ago
  • ICLR基于偏好的强化学习中的探索奖励不确定性
    PDF2 years ago
  • B-Pref: 基于好恶好评学习的加强学习基准测试
    PDF3 years ago
Prev
Next