refined direct preference optimization | BriefGPT

关键词refined direct preference optimization

搜索结果 - 1

ICLR通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化
提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。
PDF5 months ago