通过覆盖度了解偏好微调

Jun, 2024

Understanding Preference Fine-Tuning Through the Lens of Coverage

Yuda Song, Gokul Swamy, Aarti Singh, J. Andrew Bagnell, Wen Sun

TL;DR通过对数据集覆盖性的严格分析，我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件，而在线强化学习方法则只需要弱的局部覆盖条件，这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (HyPO)，它使用离线数据进行基于对比的优化，同时使用在线数据进行 KL 正则化。从理论和实证上证明，HyPO 比纯离线方法 (DPO) 具有更好的性能，同时仍然保持计算和内存效率。

Abstract

learning from human preference data has emerged as the dominant paradigm for fine-tuning large language models (LLMs). The two most common families of techniques -- online reinforcement learning (RL) such as Prox

learning from human preference data online reinforcement learning offline contrastive methods dataset coverage hybrid preference optimization

发现论文，激发创造

LLM 的偏好微调应利用次优的，符合策略的数据

通过对 fine-tuning 技术的分析，我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标，我们将这些方法统一归为对分类分布的寻找模式的目标方法，该方法能够更有效地在分类分布的不同区间进行概率分布的重新定位。我们的分析为 LLM 的 preference fine-tuning 提供了可操作性的见解，并指导了如何收集数据以实现最大改进。

Apr, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

广义偏好优化：一种离线对齐的统一方法

离线偏好优化通过直接从离线数据微调大型模型，已在最近的对齐实践中证明了其有效性。我们提出了广义偏好优化（GPO），一种由一类凸函数参数化的离线损失函数家族。GPO 实现了对偏好优化的统一视角，包括现有的算法，如 DPO、IPO 和 SLiC 等特殊情况，同时自然地引入了新的变量。GPO 框架还揭示了离线算法如何通过定义损失的凸函数来实现正则化。我们的分析和实验揭示了离线正则化与规范化神经网络的 KL 散度正则化之间的联系和微妙区别。总之，我们的结果向对齐实践者呈现了新的算法工具和实证洞见。

Feb, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。

Jun, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

OPTune: 高效在线偏好调优

本文介绍了一种更高效的在线偏好调整数据探索策略（OPTune），通过动态采样信息丰富的响应来进行在线偏好对齐，从而加快了训练速度，同时仍保持标准偏好调整提供的指示遵循优势。

Jun, 2024