广义偏好优化：一种离线对齐的统一方法

Feb, 2024

广义偏好优化：一种离线对齐的统一方法

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Yunhao Tang, Zhaohan Daniel Guo, Zeyu Zheng, Daniele Calandriello, Rémi Munos...

TL;DR离线偏好优化通过直接从离线数据微调大型模型，已在最近的对齐实践中证明了其有效性。我们提出了广义偏好优化（GPO），一种由一类凸函数参数化的离线损失函数家族。GPO 实现了对偏好优化的统一视角，包括现有的算法，如 DPO、IPO 和 SLiC 等特殊情况，同时自然地引入了新的变量。GPO 框架还揭示了离线算法如何通过定义损失的凸函数来实现正则化。我们的分析和实验揭示了离线正则化与规范化神经网络的 KL 散度正则化之间的联系和微妙区别。总之，我们的结果向对齐实践者呈现了新的算法工具和实证洞见。

Abstract

offline preference optimization allows fine-tuning large models directly from offline data, and has proved effective in recent alignment practices. We propose generalized preference optimization (GPO), a family o

offline preference optimization generalized preference optimization convex functions regularization empirical insights

发现论文，激发创造

通过覆盖度了解偏好微调

通过对数据集覆盖性的严格分析，我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件，而在线强化学习方法则只需要弱的局部覆盖条件，这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (HyPO)，它使用离线数据进行基于对比的优化，同时使用在线数据进行 KL 正则化。从理论和实证上证明，HyPO 比纯离线方法 (DPO) 具有更好的性能，同时仍然保持计算和内存效率。

Jun, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

群体偏好优化：大型语言模型的少样本对齐

利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理计算资源的需求。

Oct, 2023

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

探索面向大型语言模型的偏好优化算法

离线偏好优化是提升和控制大型语言模型输出质量的关键方法。我们通过 LLM 驱动的目标发现，自动发现新的最先进的偏好优化算法，无需人工干预。这导致了先前未知且表现良好的偏好优化算法的发现，其中表现最好的算法被称为 DiscoPOP，它是一种新的自适应混合逻辑和指数损失的算法。实验证明了 DiscoPOP 的最先进性能及其成功的迁移到保留任务。

Jun, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

自我改进的健壮偏好优化

提出了一种完全适应任务变化的离线强化学习方法，称为自我改进的稳健偏好优化（SRPO），通过将问题表示为自我改进过程的极小极大目标，以敌对方式联合优化自我改进策略和生成策略，并通过标准的监督优化技术以大规模进行优化，而无需奖励模型和在线推断。实验证明 SRPO 在 ODD XSUM 数据集上的效果优于 DPO，经过 5 次自我修订后，其 AI 获胜率（WR）达到 90%，超过 DPO 15%。

Jun, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024