关键词preference datasets
搜索结果 - 3
  • HelpSteer2: 用于训练最佳奖励模型的开源数据集
    PDF22 days ago
  • Hummer: 朝着有限竞争偏好数据集的方向
    PDFa month ago
  • 理解与人类反馈一致性的学习动态
    PDF3 months ago
Prev
Next