关键词dpo
搜索结果 - 8
- 偏好学习算法不学习偏好排序PDFa month ago
- D2PO:带鉴别器引导的 DPO 及响应评估模型PDF2 months ago
- OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练PDF3 months ago
- 通过基于直接优化偏好的高效方法生成病人文本摘要的显著性创作PDF4 months ago
- V-STaR:自主学习推理器的验证器训练PDF5 months ago
- GRATH: 大型语言模型渐进式自我真实化PDF5 months ago
- 数据课程上的对比后训练大型语言模型PDF9 months ago
- 混合约束下的动态规划优化PDF2 years ago
Prev
Next