SimPO: 简单无参考奖励优化
引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。
May, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
使用 Curry-DPO 方法,从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练,相对于标准的单对 DPO 设置,在多个指标上表现出明显的性能提升。
Mar, 2024
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
Feb, 2024
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
May, 2024
通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。
Sep, 2023
通过使用 DMPO 损失函数,对多回合任务中的大型语言模型(LLMs)进行适应,可以优化强化学习(RL)目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。
Jun, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
Dec, 2023