BPO：通过遵守行为近度增强在线偏好学习 LLM

Jun, 2024

BPO：通过遵守行为近度增强在线偏好学习 LLM

BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM

Wenda Xu, Jiachen Li, William Yang Wang, Lei Li

TL;DR在线偏好优化（BPO）是一种特定的在线 DAP 算法，通过与行为语言模型（Behavior LLM）接近，在训练 LLM 的同时提高对人类参考文本的性能。

Abstract

Direct alignment from preferences (DAP) has emerged as a promising paradigm for aligning large language models (LLMs) to human desiderata

alignment preferences language models online training llm alignment

发现论文，激发创造

多模态 LLMs 中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024

BAPO：基于基准点偏好优化的大型语言模型个性化对齐

个性化偏好优化对大型语言模型（LLMs）的影响及其在全球知识保持和对齐方面的应用进行了研究，提出了一种名为基锚偏好优化（BAPO）的简单而有效的方法，通过利用参考模型的初始响应来减轻遗忘而实现个性化对齐，BAPO 在不影响全球知识和整体对齐的情况下有效地适应多样化用户偏好。

Jun, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

通过覆盖度了解偏好微调

通过对数据集覆盖性的严格分析，我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件，而在线强化学习方法则只需要弱的局部覆盖条件，这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (HyPO)，它使用离线数据进行基于对比的优化，同时使用在线数据进行 KL 正则化。从理论和实证上证明，HyPO 比纯离线方法 (DPO) 具有更好的性能，同时仍然保持计算和内存效率。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

ICDPO：通过上下文中的直接偏好优化有效地借用他人的对齐能力

通过重新思考 DPO 的推导过程，并基于此，借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器，从而提出了一种名为 ICDPO 的新方法，使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力，生成与前述瞬时评分器估计的良好对齐的回复，从而提升最终性能。

Feb, 2024

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

在线 AI 反馈直接语言模型对齐

使用在线 AI 反馈（OAIF）方法，通过模型间的直接对齐以及获得在线反馈，我们证明其在几项任务中均优于离线的 DAP 和 RLHF 方法，并且还展示了 OAIF 方法中的反馈是易于控制的。

Feb, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023