BAPO：基于基准点偏好优化的大型语言模型个性化对齐

Jun, 2024

BAPO：基于基准点偏好优化的大型语言模型个性化对齐

BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models

Gihun Lee, Minchan Jeong, Yujin Kim, Hojung Jung, Jaehoon Oh...

TL;DR个性化偏好优化对大型语言模型（LLMs）的影响及其在全球知识保持和对齐方面的应用进行了研究，提出了一种名为基锚偏好优化（BAPO）的简单而有效的方法，通过利用参考模型的初始响应来减轻遗忘而实现个性化对齐，BAPO 在不影响全球知识和整体对齐的情况下有效地适应多样化用户偏好。

Abstract

While learning to align large language models (LLMs) with human preferences has shown remarkable success, aligning these models to meet the diverse user preferences presents further challenges in preserving previous knowledge. This paper examines the impact of →

large language models personalized preference optimization knowledge loss alignment base-anchored preference optimization

发现论文，激发创造

BPO：通过遵守行为近度增强在线偏好学习 LLM

在线偏好优化（BPO）是一种特定的在线 DAP 算法，通过与行为语言模型（Behavior LLM）接近，在训练 LLM 的同时提高对人类参考文本的性能。

Jun, 2024

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

语言模型对齐的注释高效优化

提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法，通过选择能最大化质量和多样性的回应子集并对之进行偏好标注，将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上，比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。

May, 2024

加强多模式大型语言模型的启动式优化偏好

通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式，我们提出了一种能够有效抑制预训练 LLM 偏见、提升对视觉输入的基础性的方法 ——Bootstrap Preference Optimization (BPO)，通过构建偏好数据集并进行偏好学习来解决该偏见问题。广泛的实验表明，在多个基准测试中，我们的方法显著提升了性能，推动了多模态会话系统的发展。

Mar, 2024

大型语言模型的多参考偏好优化

如何使大型语言模型与人类意图和价值相吻合？通过引入多个参考模型的直接偏好优化方法，我们提出了一种新的闭式表达式，名为多参考模型偏好优化（MRPO），从多样化的参考模型中利用更广泛的先验知识，显著增强了偏好学习能力。我们的实验证明，使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力，无论数据稀缺还是丰富。此外，MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。

May, 2024

群体偏好优化：大型语言模型的少样本对齐

利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理计算资源的需求。

Oct, 2023

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

优化语言模型以符合人类偏好的问题的因果推断

对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Feb, 2024