我们提出了一种高效的精确优化方法(EXO),证明了它在与RL算法同向渐进地优化策略参数函数上是可保证的,并通过绕过与RL算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与DPO进行比较,并进一步展示了在现实人类偏好数据上我们方法的优势。
Feb, 2024
使用噪声对比评估(NCE)方法来处理明确注释的奖励数据,比起直接偏好优化(DPO)方法在语言模型(LM)对齐方面具有更好的性能和稳定性。
通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。
通过联合指导-回应偏好数据进行大型语言模型训练,使用DOVE目标函数优化,可以显著提高LLM的对齐效果,并在总结和开放式对话数据集上分别提高5.2%和3.3%胜率。
Mar, 2024
通过优化策略的token级别前向KL散度约束,引入了Token-level Direct Preference Optimization(TDPO)一种在human preferences上对齐LLMs的新方法,提高了对齐性和多样性
Apr, 2024
通过引入自我增强式优化(SAPO)方法,本研究提出了一种有效和可扩展的训练范式——自我增强式偏好优化,不依赖于现有的配对数据,通过自我对弈生成负面响应,并结合离线对比基线和历史数据的实时反馈来动态更新响应段,从而匹配或超过现有离线对比的基线方法,如Direct Preference Optimization和Odds Ratio Preference Optimization,同时优于离线自我对弈方法,如SPIN。
May, 2024
对大型语言模型(LLM)的先前训练和参数微调的对齐方法进行了深入研究,研究了对齐数据集、对齐技术和模型对下游性能的影响,提出了帮助研究人员进行更有效参数节约LLM对齐的关键指南。
Jun, 2024
本研究针对大型语言模型在与人类偏好对齐方面的复杂性问题,提出了一种统一的研究框架,旨在增强对现有偏好对齐策略的理解。通过将现有策略分解为模型、数据、反馈和算法四个组成部分,研究展示了不同方法间的关联性,并提供了丰富的实例以帮助读者理解。同时,揭示了未来研究方向与挑战。
Sep, 2024
本论文针对大型语言模型(LLM)与人类偏好的对齐问题展开研究,指出现有研究方法多样且复杂,限制了偏好对齐的发展。我们提出了一种统一框架,将偏好学习的策略分解为模型、数据、反馈和算法四个组成部分,从而深入理解现有的对齐算法并探索未来的研究方向。
本研究针对大型语言模型(LLMs)与人类偏好对齐中的方法复杂性和研究分散性问题,提出了一种统一的框架,通过将现有的偏好学习策略分解为模型、数据、反馈和算法四个组件,深入分析现有的对齐算法。此研究不仅增进了对不同策略之间关系的理解,也为未来的研究提供了新的方向,促进了跨方法的优势互补。