统计拒绝抽样改进偏好优化

Sep, 2023

Statistical Rejection Sampling Improves Preference Optimization

Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh...

TL;DR通过引入一种称为统计拒绝采样优化 (RSO) 的新方法，我们能更准确地从目标最优策略中获取偏好数据，并提出了一个统一框架，从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验，我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。

Abstract

Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized reinforcement learning from human feedback (RLHF) via online RL

language models reinforcement learning from human feedback sequence likelihood calibration direct preference optimization statistical rejection sampling optimization

发现论文，激发创造

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

LiPO: 基于学习排序的列表偏好优化

使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐，将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比，在两项偏好对齐任务中明显表现更好。

Feb, 2024

自我改进的健壮偏好优化

提出了一种完全适应任务变化的离线强化学习方法，称为自我改进的稳健偏好优化（SRPO），通过将问题表示为自我改进过程的极小极大目标，以敌对方式联合优化自我改进策略和生成策略，并通过标准的监督优化技术以大规模进行优化，而无需奖励模型和在线推断。实验证明 SRPO 在 ODD XSUM 数据集上的效果优于 DPO，经过 5 次自我修订后，其 AI 获胜率（WR）达到 90%，超过 DPO 15%。

Jun, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023