自我增强偏好优化：语言模型对齐的离线策略范式

May, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment

Yueqin Yin, Zhendong Wang, Yujia Xie, Weizhu Chen, Mingyuan Zhou

TL;DR通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

Abstract

Traditional language model alignment methods, such as Direct Preference Optimization (DPO), are limited by their dependence on static, pre-collected paired preference data, which hampers their adaptability and practical applicability. To overcome this limitation, we introduce Self-Augm

language model alignment methods preference optimization self-augmented training paradigm exponential moving average model offline contrastive baselines

发现论文，激发创造

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024

BPO：通过遵守行为近度增强在线偏好学习 LLM

在线偏好优化（BPO）是一种特定的在线 DAP 算法，通过与行为语言模型（Behavior LLM）接近，在训练 LLM 的同时提高对人类参考文本的性能。

Jun, 2024

约束语言模型策略优化的逐步对齐

这篇论文提出了一种基于大型语言模型（LLMs）的人类价值对齐作为语言模型策略优化问题的方法，以在安全约束下最大化奖励，并提出了一种名为 SACPO 的算法。通过直接优化偏好方法等简单而强大的对齐算法，SACPO 可以逐步对齐 LLMs 与每个度量标准，并在算法和数据集选择方面提供了简单性、稳定性、计算效率和灵活性。在温和假设下，我们的理论分析提供了近似最优性和安全约束违反的上界。实验结果表明，SACPO 在有益性和无害性方面可以比最先进的方法更好地调整 Alpaca-7B。

Apr, 2024

SimPO: 简单无参考奖励优化

SimPO 是一种简化且更加有效的离线首选优化算法，通过使用序列的平均对数概率作为隐式奖励来改进模型生成并消除参考模型的需求，进一步增强算法的性能。通过与 DPO 及其最新变体在多种训练设置中的比较，SimPO 始终显著优于现有方法，而不会显著增加响应长度。

May, 2024

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

语言模型对齐的注释高效优化

提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法，通过选择能最大化质量和多样性的回应子集并对之进行偏好标注，将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上，比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。

May, 2024

软化偏好优化：将语言模型与专家分布对齐

我们提出了软偏好优化（SPO）方法，它能够使生成模型（如大型语言模型 LLMs）与人类偏好对齐，无需奖励模型。SPO 通过一种自然损失函数，在整个模型的输出分布中最大程度地优化模型输出，包括偏好损失和正则化项。虽然 SPO 不需要假设现有的基础奖励模型，但我们证明，在布拉德利 - 特里（BT）模型的假设下，它收敛于缩放奖励的 softmax，通过调整 softmax 指数，可以调节分布的 “软度”。我们展示了 SPO 的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。

Apr, 2024

BAPO：基于基准点偏好优化的大型语言模型个性化对齐

个性化偏好优化对大型语言模型（LLMs）的影响及其在全球知识保持和对齐方面的应用进行了研究，提出了一种名为基锚偏好优化（BAPO）的简单而有效的方法，通过利用参考模型的初始响应来减轻遗忘而实现个性化对齐，BAPO 在不影响全球知识和整体对齐的情况下有效地适应多样化用户偏好。

Jun, 2024

无参考对齐扩散模型的边缘感知优化

基于最近的文本到图像扩散模型，我们提出一种新颖且内存友好的偏好对齐方法，名为 MaPO，它通过最大化喜欢和不喜欢的图像集之间的可能性间隔以及喜欢图像集的可能性来同时学习一般风格特征和偏好，实验证明 MaPO 在处理参考不匹配时能显著提高对齐性能。

Jun, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024