关键词natural language critiques
搜索结果 - 3
  • 改进奖励模型通过合成批评
    PDFa month ago
  • 通过对比强化学习实现故事讲述的鲁棒性偏好学习
    PDF2 years ago
  • 自我批评模型用于辅助人类评估员
    PDF2 years ago
Prev
Next