ULMA:统一语言模型对齐与演示与逐点人类偏好
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型和策略,并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO,特别是当高质量偏好数据的数量相对有限时。
Jun, 2024
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法,该方法有效地注入了良好的行为并减轻了不理想的情况,鼓励模型忽略不合适的指令,从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。
Jan, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐,将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比,在两项偏好对齐任务中明显表现更好。
Feb, 2024