关键词reward modelling
搜索结果 - 3
  • 通过分布偏好奖励建模对齐群体反馈
    PDF5 months ago
  • 可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模
    PDF2 years ago
  • 基于归一化流的观测式模仿学习 (IL-flOw)
    PDF2 years ago
Prev
Next