关键词learning from human preferences
搜索结果 - 2
  • 理解从人类偏好中学习的一般理论范式
    PDF9 months ago
  • 使用离线强化学习与人类反馈对齐语言模型
    PDF10 months ago
Prev
Next