对抗性偏好优化

Nov, 2023

Adversarial Preference Optimization

Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Nan Du

TL;DR人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Abstract

human preference alignment is a crucial training step to improve the interaction quality of large language models (LLMs). Existing alignin

human preference alignment large language models interaction quality adversarial preference optimization distribution gap

发现论文，激发创造

语言模型对齐的注释高效优化

提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法，通过选择能最大化质量和多样性的回应子集并对之进行偏好标注，将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上，比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

通过主动偏好优化的可证明样本高效强化学习

基于人类反馈的强化学习（RLHF）是将大型语言模型（LLMs）与人类偏好相一致的关键所在。然而，依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此，需要更好和适应性更强的数据收集策略。为此，我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题，并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后，我们提出一种主动选择提示以收集偏好数据的算法（ exttt {APO}），在 Bradley-Terry-Luce（BTL）偏好模型下， exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明，在给定采样预算 T 的情况下，通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来，我们提出了一种计算高效的 exttt {APO} 的批处理版本，并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案，以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。

Feb, 2024

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024

通过偏好学习提高大型语言模型的属性文本生成能力

大型语言模型在自然语言处理中被广泛采用，但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而，当前的引用方法通常集中在检索阶段和自动评估上，忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习，并引入自动偏好优化（APO）框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子)，通过收集和过滤现有数据集。其次，考虑到标记偏好数据的高成本，我们进一步提出了一种自动合成归因偏好数据的方法，得到了 95263 对。此外，受人类引文过程的启发，我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明，APO 在引文 F1 指标上达到了最先进的水平，并且具有更高的回答质量。

Mar, 2024

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

人体对齐的偏好排名优化

提出了一种名为 Preference Ranking Optimization（PRO）的新型策略，旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名，实现语言模型（LLMs）的与人类价值观的对齐。研究结果表明，PRO 优于现有的对齐算法，并通过基于自动化、奖励、GPT-4 和人类评估的实验来达到与 ChatGPT 和人类响应相当的结果。此外，作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将 LLMs 与人对其的对齐性能。

Jun, 2023

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024