关键词fine-grained reward
搜索结果 - 1
  • 细粒度人类反馈为语言模型训练提供更好的奖励
    PDFa year ago
Prev
Next