偏好作为奖励,通过重要性采样进行最大偏好优化
利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为 ΨPO 的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析(作为 ΨPO 的特殊情况),并确定它们的潜在缺陷。然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于 DPO。
Oct, 2023
通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。
Sep, 2023
通过权重偏好优化方法(WPO),我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题,该方法通过重新加权优先级对预期对策激励进行了模拟,从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法,并在 Alpaca Eval 2 上比直接优先权优化(DPO)的表现提高了最高 5.6%,并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6%,使其成为排行榜上最强的 8B 模型。
Jun, 2024
强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索,通过鼓励模型产生多样化、最具信息量的回应,充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO(Exploratory Preference Optimization),它通过引入新颖而且有原则的探索奖励来增强 DPO 目标,使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看,我们证明了 XPO 具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面,我们发现 XPO 在初步评估中比非探索性 DPO 变体具有更高的样本效率。
May, 2024
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例,我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
Mar, 2024