优化语言模型以符合人类偏好的问题的因果推断
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。
May, 2024
探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法,该方法有效地注入了良好的行为并减轻了不理想的情况,鼓励模型忽略不合适的指令,从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。
Jan, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。
Nov, 2023
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
将 AI 系统与用户的兴趣相协调需要理解和融入人类复杂的价值观和偏好。我们介绍了一个名为 OPEN 的框架,它利用贝叶斯最优实验设计(BOED)指导选择信息丰富的问题,并利用语言模型(LM)提取特征和将抽象的 BOED 查询转化为自然语言问题。通过将 LM 的灵活性与 BOED 的严谨性结合起来,OPEN 能够在保持适应性于现实世界领域的同时优化查询的信息量。用户研究中显示,OPEN 在偏好获取方面优于现有的基于 LM 和 BOED 的方法。
Mar, 2024
离线偏好优化是提升和控制大型语言模型输出质量的关键方法。我们通过 LLM 驱动的目标发现,自动发现新的最先进的偏好优化算法,无需人工干预。这导致了先前未知且表现良好的偏好优化算法的发现,其中表现最好的算法被称为 DiscoPOP,它是一种新的自适应混合逻辑和指数损失的算法。实验证明了 DiscoPOP 的最先进性能及其成功的迁移到保留任务。
Jun, 2024
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐 LLMs 的评估。
Jun, 2024