从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现 PPO 在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。
Apr, 2024
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
Feb, 2024