PHOENIX: 开源的语言适应直接偏好优化

Jan, 2024

PHOENIX: 开源的语言适应直接偏好优化

PHOENIX: Open-Source Language Adaption for Direct Preference Optimization

Matthias Uhlig, Sigurd Schacht, Sudarshan Kamath Barkur

TL;DR使用最新的改进，应用直接偏好优化（DPO）方法于德语，建立在大语言模型的基础上，探索了语言模型的转移学习、架构改进和直接偏好优化等研究领域。

Abstract

Large language models have gained immense importance in recent years and have demonstrated outstanding results in solving various tasks. However, despite these achievements, many questions remain unanswered in the context of large →

发现论文，激发创造

大型语言模型的主动偏好学习

利用DPO进行喂养，通过预测语言模型的预测熵和由DPO优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO（ODPO）的DPO泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO在对齐语言模型方面明显优于传统的DPO方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的Direct Nash Optimization算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

分析和理解DPO的局限性：理论视角

直接偏好优化(DPO)通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型(LLMs)方面具有有效性。为了克服其在SFT的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析DPO的优化过程的理论基础，发现DPO损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解DPO在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

大型语言模型的多参考偏好优化

如何使大型语言模型与人类意图和价值相吻合？通过引入多个参考模型的直接偏好优化方法，我们提出了一种新的闭式表达式，名为多参考模型偏好优化（MRPO），从多样化的参考模型中利用更广泛的先验知识，显著增强了偏好学习能力。我们的实验证明，使用MRPO微调的大型语言模型在各种偏好数据中都具有更好的泛化能力，无论数据稀缺还是丰富。此外，MRPO有效地使大型语言模型在GSM8K和TruthfulQA等多个下游自然语言处理任务中表现出优越性能。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式——自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如Direct Preference Optimization和Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如SPIN。

May, 2024

迭代长度正则化直接偏好优化：基于提升7B语言模型至GPT-4水平的案例研究

我们引入了迭代的长度正则化DPO（iLR-DPO）来解决改进的回应质量可能导致冗长的问题，并验证了iLR-DPO在与GPT-4相媲美的性能上的有效性。

Jun, 2024

$β$-DPO：动态$β$的直接偏好优化

通过动态更新beta值和优化数据质量，改进了直接偏好优化方法(DPO)在训练大型语言模型(Large Language Models, LLMs)时的性能。

Jul, 2024

直接优化偏好的新准则

基于直接偏好优化（DPO）本身存在未解决的缺陷，此研究提出一种代替的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题，并通过实证结果验证了分析的重要方面。

Jul, 2024