使用反事实数据处理器调整大型语言模型
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。
Feb, 2024
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
通过对比提示对生成的偏好数据进行评估,并计算自奖励分数,最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型,实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。
Feb, 2024
通过多种模型(例如 InstructGPT、ChatGPT 和 GPT-4)自动构建偏好对比,并运用对比式后训练方法,我们探索了对大型语言模型(LLMs)进行人类偏好调整的重要步骤。我们仔细比较了 SLiC 和 DPO 的对比技术与 SFT 基准,并发现即使在继续进行 SFT 饱和后,DPO 仍然提供了一个阶跃式的改进。我们还探索了一种数据课程学习方案用于对比式后训练,该方案从 “更简单” 的对比开始,并逐渐转向 “更困难” 的对比,进一步提高了对齐性。最后,我们扩大了实验规模,使用更多数据和像 Orca 这样的大型模型进行训练。引人注目的是,对比式后训练进一步提高了 Orca 的性能,这已是一个与 GPT-4 输出相调谐的最先进的指导学习模型,其超过了 ChatGPT 的性能。
Oct, 2023
通过重新思考 DPO 的推导过程,并基于此,借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器,从而提出了一种名为 ICDPO 的新方法,使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力,生成与前述瞬时评分器估计的良好对齐的回复,从而提升最终性能。
Feb, 2024
通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现 PPO 在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。
Apr, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
通过对大型语言模型进行对齐,开发人员可以根据用户的偏好通过多种程序(如强化学习自人类反馈和直接偏好优化)将其用于面向用户的应用程序。然而,当前的评估过程侧重于指令遵循、推理和真实性等基准,而人类偏好并非普遍存在,对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能,包括英语方言、多语言和全球各国的观点。研究结果表明,当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后,我们讨论了导致这些意外影响的设计决策,并提出了更公平的偏好调整建议。
Feb, 2024