语言模型对齐的注释高效优化

May, 2024

Annotation-Efficient Preference Optimization for Language Model Alignment

Yuu Jinnai, Ukyo Honda

TL;DR提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法，通过选择能最大化质量和多样性的回应子集并对之进行偏好标注，将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上，比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。

Abstract

preference optimization is a standard approach to fine-tuning large language models to align with human preferences. The quality, diversity, and quantity of the preference dataset are critical to the effectiveness of preference optimization. However, obtaining a large amount of high-qu

preference optimization large language models annotation budget quality and diversity aepo

发现论文，激发创造

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

并非所有偏好配对都相等：一种高效迭代偏好学习的配方

通过在不同迭代中为性能更好的无法获得明显奖励的响应对分配更多资源，本研究提出了一种选择值得注释的响应对的策略，以实现在成本效益高的注释条件下与随机选择基线相比的竞争性或更好的性能。

Jun, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

BAPO：基于基准点偏好优化的大型语言模型个性化对齐

个性化偏好优化对大型语言模型（LLMs）的影响及其在全球知识保持和对齐方面的应用进行了研究，提出了一种名为基锚偏好优化（BAPO）的简单而有效的方法，通过利用参考模型的初始响应来减轻遗忘而实现个性化对齐，BAPO 在不影响全球知识和整体对齐的情况下有效地适应多样化用户偏好。

Jun, 2024

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

通过偏好学习提高大型语言模型的属性文本生成能力

大型语言模型在自然语言处理中被广泛采用，但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而，当前的引用方法通常集中在检索阶段和自动评估上，忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习，并引入自动偏好优化（APO）框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子)，通过收集和过滤现有数据集。其次，考虑到标记偏好数据的高成本，我们进一步提出了一种自动合成归因偏好数据的方法，得到了 95263 对。此外，受人类引文过程的启发，我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明，APO 在引文 F1 指标上达到了最先进的水平，并且具有更高的回答质量。

Mar, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

面向语言模型对齐的高效准确优化

我们提出了一种高效的精确优化方法 (EXO)，证明了它在与 RL 算法同向渐进地优化策略参数函数上是可保证的，并通过绕过与 RL 算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与 DPO 进行比较，并进一步展示了在现实人类偏好数据上我们方法的优势。

Feb, 2024

滤波直接优化偏好

利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大，而本文提出了一种扩展的 DPO 方法，即 filtered direct preference optimization (fDPO)，通过训练奖励模型来监控首选数据集中的文本质量，从而改善最终模型的性能。

Apr, 2024