PHOENIX: 开源的语言适应直接偏好优化
利用DPO进行喂养,通过预测语言模型的预测熵和由DPO优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO(ODPO)的DPO泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO在对齐语言模型方面明显优于传统的DPO方法,尤其是在偏好对数量有限的情况下。
Feb, 2024
本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系,本文介绍了可证明且可扩展的Direct Nash Optimization算法,并在实验中证明其在性能上优于其他模型。
Apr, 2024
直接偏好优化(DPO)通过从成对偏好数据中推导奖励信号,已被证明在与人类偏好的对齐大型语言模型(LLMs)方面具有有效性。为了克服其在SFT的有效性和向人类首选响应的学习能力方面的敏感性,导致性能不够令人满意,我们提供了一个使用场论的分析框架来分析DPO的优化过程的理论基础,发现DPO损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快,这为了解DPO在相关研究实验中发现的限制提供了理论洞察,从而为其改进奠定了基础。
Apr, 2024
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用MRPO微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO有效地使大型语言模型在GSM8K和TruthfulQA等多个下游自然语言处理任务中表现出优越性能。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
通过引入自我增强式优化(SAPO)方法,本研究提出了一种有效和可扩展的训练范式——自我增强式偏好优化,不依赖于现有的配对数据,通过自我对弈生成负面响应,并结合离线对比基线和历史数据的实时反馈来动态更新响应段,从而匹配或超过现有离线对比的基线方法,如Direct Preference Optimization和Odds Ratio Preference Optimization,同时优于离线自我对弈方法,如SPIN。
May, 2024
我们引入了迭代的长度正则化DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了iLR-DPO在与GPT-4相媲美的性能上的有效性。
Jun, 2024
通过动态更新beta值和优化数据质量,改进了直接偏好优化方法(DPO)在训练大型语言模型(Large Language Models, LLMs)时的性能。
Jul, 2024
基于直接偏好优化(DPO)本身存在未解决的缺陷,此研究提出一种代替的DPO损失函数,以缓解低质量响应和约束处理方面的权衡问题,并通过实证结果验证了分析的重要方面。
Jul, 2024