D2PO:带鉴别器引导的 DPO 及响应评估模型
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
Feb, 2024
通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上,我们提出了简单的正则化方法来缓解这些问题,提高 DPO 的训练稳定性和最终性能,同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。
Jun, 2024
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO 在对齐语言模型方面明显优于传统的 DPO 方法,尤其是在偏好对数量有限的情况下。
Feb, 2024
通过引入在随机偏好翻转情况下进行策略优化的总体框架,我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比,可以显著降低偏好标签噪音对学习策略的影响。
Mar, 2024
从偏好反馈学习的四个核心方面:偏好数据,学习算法,奖励模型和政策训练提示,我们系统地研究了这些组件对下游模型性能的影响,并提出了一种强偏好反馈学习的方法。研究发现,偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
Jun, 2024
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
May, 2024
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大,而本文提出了一种扩展的 DPO 方法,即 filtered direct preference optimization (fDPO),通过训练奖励模型来监控首选数据集中的文本质量,从而改善最终模型的性能。
Apr, 2024