DPO 相遇 PPO：针对 RLHF 的强化标记优化

Apr, 2024

DPO 相遇 PPO：针对 RLHF 的强化标记优化

DPO Meets PPO: Reinforced Token Optimization for RLHF

Han Zhong, Guhao Feng, Wei Xiong, Li Zhao, Di He...

TL;DR在这篇研究中，我们介绍了一种将人类反馈引入加强学习的框架，并提出了一种基于标记级别信息的算法，通过学习标记级别的奖励函数并进行策略优化，从而有效地解决了传统深度强化学习中的挑战。

Abstract

In the classical reinforcement learning from human feedback (RLHF) framework, proximal policy optimization (PPO) is employed to learn from sparse, sentence-level rewards -- a challenging scenario in traditional d

reinforcement learning from human feedback proximal policy optimization token-wise information reinforced token optimization direct preference optimization

发现论文，激发创造

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

近端策略优化实战：操纵输出标记长度

通过使用奖励模型和 Proximal Policy Optimization（PPO）来操控模型生成的输出 tokenizer 长度的新任务，实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。

Aug, 2023

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023