关键词direct policy optimisation
搜索结果 - 1
  • 大型语言模型的人类对齐通过在线偏好优化
    PDF4 months ago
Prev
Next