通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
Feb, 2024
通过预训练、直接偏好优化和蒸馏方法,改进了离线对齐过程中偏好数据分布转移的鲁棒性,同时保留了简单的监督学习性质。
May, 2024
通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。
Sep, 2023
从偏好反馈学习的四个核心方面:偏好数据,学习算法,奖励模型和政策训练提示,我们系统地研究了这些组件对下游模型性能的影响,并提出了一种强偏好反馈学习的方法。研究发现,偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
Jun, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
ROPO 是第一个提供噪声容忍保证的偏好对齐方法,通过动态分配激进梯度权重给具有高标签不确定性的回应对,有效地抑制噪声样本的梯度,保证了期望风险具有相同的梯度方向,实验证明 ROPO 显著优于现有的基于排名的方法。
Apr, 2024
我们提出了 D2PO,即鉴别器引导的 DPO,在线设置下通过收集偏好来训练策略,同时使用鉴别器模型对回应进行评估,以获得高质量的输出和更高的效率。
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
Nov, 2023