关键词human preference data
搜索结果 - 3
  • DIPPER:直接优化偏好以加速基元级层次强化学习
    PDF20 days ago
  • CVPR探索人类偏好的文本生成动作
    PDF3 months ago
  • 比较摘要模型需要多少注释?
    PDF4 months ago
Prev
Next