语言代理的多轮偏好直接优化

Jun, 2024

Direct Multi-Turn Preference Optimization for Language Agents

Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng

TL;DR通过使用 DMPO 损失函数，对多回合任务中的大型语言模型（LLMs）进行适应，可以优化强化学习（RL）目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。

Abstract

Adapting large language models (LLMs) for agent tasks is critical in developing language agents. direct preference optimization (DPO) is a promising technique for this adaptation with the alleviation of compoundi

large language models direct preference optimization reinforcement learning multi-turn tasks dmpo loss

发现论文，激发创造

超越一种偏好适用于所有情况：多目标直接偏好优化

多目标直接偏好优化（MODPO）是一种不依赖强化学习（RL）的算法，通过使用多个收集到的反馈和特定加权的收益模型，训练不同的语言模型以满足不同的偏好，以更高效地生成多样化的解决方案，使用了比 MORLHF 更少 3 倍的计算资源。

Oct, 2023

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO（ODPO）的 DPO 泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO 在对齐语言模型方面明显优于传统的 DPO 方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024