dpo | BriefGPT - AI 论文速递

关键词dpo

搜索结果 - 8

偏好学习算法不学习偏好排序
研究了偏好学习算法在最大似然语言模型中的应用，发现现有模型在偏好数据集上的排名准确率低于 60%，并探讨了 DPO 和 RLHF 目标优化之间的差异。
PDFa month ago
D2PO：带鉴别器引导的 DPO 及响应评估模型
我们提出了 D2PO，即鉴别器引导的 DPO，在线设置下通过收集偏好来训练策略，同时使用鉴别器模型对回应进行评估，以获得高质量的输出和更高的效率。
PDF2 months ago
OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练
使用基于 OpenLLaMA 3Bv2 的基本模型，我们描述了用于微调 OpenBezoar 系列模型的配方，并证明了最终检查点 “OpenBezoar-HH-RLHF-DPO” 在 3B 参数规模上胜过许多其他模型。
PDF3 months ago
通过基于直接优化偏好的高效方法生成病人文本摘要的显著性创作
提出了 “NOTE”（直接偏好优化的显著病人文本摘要生成方法）来为患者的单个住院期间生成出院小结，并演示了基于网页的软件。
PDF4 months ago
V-STaR：自主学习推理器的验证器训练
通过使用 DPO 判断模型生成的正确和错误解，V-STaR 提出了一种利用自我改进过程中生成的正确和错误解的方法，用于训练验证器，并在推理时从众多候选解中选择一种解，多次运行 V-STaR 可以逐渐提升推理能力和正确性，并在常见代码生成和数
PDF5 months ago
GRATH: 大型语言模型渐进式自我真实化
通过利用 GRAdual self-truTHifying (GRATH) 方法，不需要注释答案，仅使用问题提示和优化模型来提高大型语言模型的真实性，结果表明 GRATH 在 TruthfulQA 上取得了最先进的性能。
PDF5 months ago
数据课程上的对比后训练大型语言模型
通过多种模型（例如 InstructGPT、ChatGPT 和 GPT-4）自动构建偏好对比，并运用对比式后训练方法，我们探索了对大型语言模型（LLMs）进行人类偏好调整的重要步骤。我们仔细比较了 SLiC 和 DPO 的对比技术与 SFT
PDF9 months ago
混合约束下的动态规划优化
通过引入 DPMC 和 DPO，结合动态规划和代数决策图技术实现了精确求解更为一般化的最大概率解释问题 Boolean MPE，并在随机生成的混合子句 - 异或范式公式实验中显著优于目前的 MaxSAT 状态最优求解器。
PDF2 years ago