多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比 MORLHF 更少 3 倍的计算资源。
Oct, 2023
通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出 mDPO,一种多模态 DPO 目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明,mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的,并在模型性能方面取得了显著改进,尤其是在减少幻觉方面。
Jun, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
通过优化策略的 token 级别前向 KL 散度约束,引入了 Token-level Direct Preference Optimization(TDPO)一种在 human preferences 上对齐 LLMs 的新方法,提高了对齐性和多样性
Apr, 2024
通过预训练、直接偏好优化和蒸馏方法,改进了离线对齐过程中偏好数据分布转移的鲁棒性,同时保留了简单的监督学习性质。
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO 在对齐语言模型方面明显优于传统的 DPO 方法,尤其是在偏好对数量有限的情况下。
Feb, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上,我们提出了简单的正则化方法来缓解这些问题,提高 DPO 的训练稳定性和最终性能,同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。