关键词human preference
搜索结果 - 8
  • COLING人工对齐中的语言模型微调中的数据多样性扩展
    PDF4 months ago
  • 无偏好的对齐学习与正则化相关回报
    PDF5 months ago
  • BATON:用人类偏好反馈对齐文本到音频模型
    PDF5 months ago
  • 超越模仿:利用细粒度质量信号进行对齐
    PDF8 months ago
  • STRAPPER: 基于偏好的自我训练强化学习方法及同伴正则化
    PDFa year ago
  • ImageReward: 学习和评估人类对文本到图像生成的偏好
    PDFa year ago
  • EMNLPStoryER:通过排序、评分和推理进行自动故事评估
    PDF2 years ago
  • 人类学习奖励函数的偏好模型
    PDF2 years ago
Prev
Next