减少DPO拒绝惩罚以增加训练的鲁棒性
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的RS-DPO方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过RS、PPO和DPO等现有方法。
Feb, 2024
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO(ODPO)的DPO泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO在对齐语言模型方面明显优于传统的DPO方法,尤其是在偏好对数量有限的情况下。
Feb, 2024
通过引入Constrained DPO(C-DPO)方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习fine-tuning阶段强制执行安全约束,从而在同时提高AI系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析RLHF和DPO的稳定性和鲁棒性,我们提出了一种新方法MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对DPO进行训练,然后在一个具有DPO模型作为参考模型的困难集上进行RLHF。实验在两个公开的对齐数据集上进行,即HH-RLHF和TLDR,展示了MPO的有效性,无论是在GPT4上还是人类评估上。
Mar, 2024
直接偏好优化(DPO)通过从成对偏好数据中推导奖励信号,已被证明在与人类偏好的对齐大型语言模型(LLMs)方面具有有效性。为了克服其在SFT的有效性和向人类首选响应的学习能力方面的敏感性,导致性能不够令人满意,我们提供了一个使用场论的分析框架来分析DPO的优化过程的理论基础,发现DPO损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快,这为了解DPO在相关研究实验中发现的限制提供了理论洞察,从而为其改进奠定了基础。
Apr, 2024
通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现PPO在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。
Apr, 2024
Mallows-DPO是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法(DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
May, 2024
引入Triple Preference Optimization (TPO)方法,使用较少数据直接对大型语言模型进行优化,不需要独立的Supervised Fine-Tuned步骤,并在多个评估指标上显示出超过其他方法的性能提升。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
本研究解决了大型语言模型在与人类偏好对齐过程中的不足,提出了MinorDPO作为强化学习的改进版本。通过对DPO中β参数的分析,揭示了其与传统RL算法的语法差异及其潜在短板,最终表明MinorDPO能提高优化过程的稳定性和鲁棒性。
Aug, 2024