关键词preference models
搜索结果 - 7
  • 多目标强化学习从 AI 反馈
    PDF23 days ago
  • RLHF 工作流程:从奖励建模到在线强化学习
    PDF2 months ago
  • 人类反馈的最佳设计
    PDF2 months ago
  • 用于对齐语言模型的组合偏好模型
    PDF9 months ago
  • ICML通过随机可达性量化推荐系统中的可用性和发现性
    PDF3 years ago
  • WSDM用户生成商品列表延续的一致性感知推荐
    PDF5 years ago
  • 利用示例批判和建议进行基于偏好的搜索
    PDF13 years ago
Prev
Next