关键词negative responses
搜索结果 - 2
  • 通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍
    PDF14 days ago
  • 广泛的自对比使得无需反馈的语言模型对准
    PDF3 months ago
Prev
Next