RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

Feb, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models

Saeed Khaki, JinJin Li, Lan Ma, Liu Yang, Prathap Ramachandra

TL;DR通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Abstract

reinforcement learning from human feedback (RLHF) has been extensively employed to align large language models with user intent. However, proximal policy optimization (PPO) based RLHF is occasionally unstable req

reinforcement learning human feedback proximal policy optimization direct preference optimization rejection sampling

发现论文，激发创造

统计拒绝抽样改进偏好优化

通过引入一种称为统计拒绝采样优化 (RSO) 的新方法，我们能更准确地从目标最优策略中获取偏好数据，并提出了一个统一框架，从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验，我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。

Sep, 2023

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023