直接优化偏好的新准则
本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为ΨPO的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对RLHF和DPO的行为进行深入分析(作为ΨPO的特殊情况),并确定它们的潜在缺陷。然后,我们通过将Ψ简单地设置为Identity来考虑ΨPO的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于DPO。
Oct, 2023
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例,我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
Mar, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析RLHF和DPO的稳定性和鲁棒性,我们提出了一种新方法MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对DPO进行训练,然后在一个具有DPO模型作为参考模型的困难集上进行RLHF。实验在两个公开的对齐数据集上进行,即HH-RLHF和TLDR,展示了MPO的有效性,无论是在GPT4上还是人类评估上。
Mar, 2024
利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于Direct Preference Optimization (DPO)进行优化的模型性能影响较大,而本文提出了一种扩展的DPO方法,即filtered direct preference optimization (fDPO),通过训练奖励模型来监控首选数据集中的文本质量,从而改善最终模型的性能。
Apr, 2024
Mallows-DPO是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法(DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
本研究解决了大型语言模型在与人类偏好对齐过程中的不足,提出了MinorDPO作为强化学习的改进版本。通过对DPO中β参数的分析,揭示了其与传统RL算法的语法差异及其潜在短板,最终表明MinorDPO能提高优化过程的稳定性和鲁棒性。
Aug, 2024
本研究解决了现有直接偏好优化(DPO)方法在训练大型语言模型时对人类偏好的对齐问题。通过对DPO中$\beta$机制的分析和改进,提出了MinorDPO方法,使其在偏好优化过程中更稳定,并与原始强化学习算法更好地对齐。该方法的显著发现是可以提高训练的鲁棒性,从而增强模型性能。
Aug, 2024
本研究解决了现有文献中对直接偏好优化(DPO)理论、变体和应用缺乏深入审查的问题。通过对DPO的现有研究进行分类,并提出未来研究方向,本文提供了对模型与人类偏好对齐的全面理解。研究发现DPO作为一种无强化学习的方法,对提升模型对齐策略具有重要影响。
Oct, 2024