使用 DPO 隐式奖励进行自助式语言模型训练
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。
Apr, 2024
我们引入了迭代的长度正则化 DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。
Jun, 2024
通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现 PPO 在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。
Apr, 2024
人类反馈强化学习对大型语言模型的成功起到至关重要的作用,然而,它存在一些问题,如偏好中的冗长性。本研究通过研究 Direct Preference Optimization(DPO)中的长度问题,提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上,尽管 GPT4 评判者存在冗长偏见,但我们在控制长度的情况下获得了高达 20% 的胜率提升。
Mar, 2024
提出一种称为 “rDPO” 的方法,通过自我批评引导创建合成数据,并利用广义的 DPO 损失函数蒸馏为学生 LLM,其中使用额外的外部奖励模型提高合成数据质量,从而改善大型语言模型的行为对齐。
Feb, 2024