关键词offline preference optimization
搜索结果 - 3
  • 探索面向大型语言模型的偏好优化算法
    PDF24 days ago
  • 自博弈对抗评论家:可证明和可扩展的离线对齐语言模型
    PDFa month ago
  • 广义偏好优化:一种离线对齐的统一方法
    PDF5 months ago
Prev
Next