关键词dpo
搜索结果 - 8
  • 偏好学习算法不学习偏好排序
    PDFa month ago
  • D2PO:带鉴别器引导的 DPO 及响应评估模型
    PDF2 months ago
  • OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练
    PDF3 months ago
  • 通过基于直接优化偏好的高效方法生成病人文本摘要的显著性创作
    PDF4 months ago
  • V-STaR:自主学习推理器的验证器训练
    PDF5 months ago
  • GRATH: 大型语言模型渐进式自我真实化
    PDF5 months ago
  • 数据课程上的对比后训练大型语言模型
    PDF9 months ago
  • 混合约束下的动态规划优化
    PDF2 years ago
Prev
Next