关键词implicit reward function
搜索结果 - 1
  • 大型语言模型的直接偏好知识蒸馏
    PDF8 days ago
Prev
Next