基于DPO的偏好学习概括研究

Aug, 2024

On the Generalization of Preference Learning with DPO

Shawn Im, Yixuan Li

TL;DR本研究解决了大型语言模型（LLMs）在对齐人类偏好方面的不足，通过引入一个新的理论框架来分析使用直接偏好优化（DPO）训练模型的泛化保证。研究发现，在特定条件下，采用DPO训练的模型能够高概率正确识别未见数据中的偏好响应，从而提升了模型的实际应用价值。

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities but often struggle to align with human preferences, leading to harmful or undesirable outputs. Preference Learning, which trains models to di

发现论文，激发创造

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的RLHF方法，DPO不仅表现更好，而且更加稳定和简单。

May, 2023

滤波直接优化偏好

利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于Direct Preference Optimization (DPO)进行优化的模型性能影响较大，而本文提出了一种扩展的DPO方法，即filtered direct preference optimization (fDPO)，通过训练奖励模型来监控首选数据集中的文本质量，从而改善最终模型的性能。

Apr, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用DPO和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

大型语言模型的多参考偏好优化

如何使大型语言模型与人类意图和价值相吻合？通过引入多个参考模型的直接偏好优化方法，我们提出了一种新的闭式表达式，名为多参考模型偏好优化（MRPO），从多样化的参考模型中利用更广泛的先验知识，显著增强了偏好学习能力。我们的实验证明，使用MRPO微调的大型语言模型在各种偏好数据中都具有更好的泛化能力，无论数据稀缺还是丰富。此外，MRPO有效地使大型语言模型在GSM8K和TruthfulQA等多个下游自然语言处理任务中表现出优越性能。

May, 2024

直接优化偏好的新准则

基于直接偏好优化（DPO）本身存在未解决的缺陷，此研究提出一种代替的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题，并通过实证结果验证了分析的重要方面。

Jul, 2024

关于使用直接偏好优化的偏好学习的泛化

本研究解决了大型语言模型与人类偏好对齐不足的问题，通过建立新的理论框架分析直接偏好优化（DPO）训练模型的泛化保证。研究发现，在特定条件下，使用DPO训练的模型能够在未见数据上高概率地正确识别偏好响应，展示了该理论对实际应用的重要价值。

Aug, 2024

朝着大型语言模型偏好学习的统一视角：一项调查

本研究针对大型语言模型在与人类偏好对齐方面的复杂性问题，提出了一种统一的研究框架，旨在增强对现有偏好对齐策略的理解。通过将现有策略分解为模型、数据、反馈和算法四个组成部分，研究展示了不同方法间的关联性，并提供了丰富的实例以帮助读者理解。同时，揭示了未来研究方向与挑战。

Sep, 2024

隐式奖励模型的有限泛化能力研究

本研究探讨了直接偏好优化(DPO)所产生的隐式奖励模型DPORM与显式奖励模型(EXRM)在区分人类偏好方面的表现差异。尽管DPORM能够很好地拟合训练数据集，但结果表明其在验证数据集上泛化能力较差，尤其是在存在分布转变的情况下，这一发现强调了在迭代DPO方法中整合显式奖励模型的重要性。

Sep, 2024

大型语言模型偏好学习的统一视角：综述

本论文针对大型语言模型（LLM）与人类偏好的对齐问题展开研究，指出现有研究方法多样且复杂，限制了偏好对齐的发展。我们提出了一种统一框架，将偏好学习的策略分解为模型、数据、反馈和算法四个组成部分，从而深入理解现有的对齐算法并探索未来的研究方向。

Sep, 2024

面向大型语言模型的偏好学习统一视角：一项综述

本研究针对大型语言模型（LLMs）与人类偏好对齐中的方法复杂性和研究分散性问题，提出了一种统一的框架，通过将现有的偏好学习策略分解为模型、数据、反馈和算法四个组件，深入分析现有的对齐算法。此研究不仅增进了对不同策略之间关系的理解，也为未来的研究提供了新的方向，促进了跨方法的优势互补。

Sep, 2024