优化语言模型以符合人类偏好的问题的因果推断

Feb, 2024

优化语言模型以符合人类偏好的问题的因果推断

Optimizing Language Models for Human Preferences is a Causal Inference Problem

Victoria Lin, Eli Ben-Michael, Louis-Philippe Morency

TL;DR对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Abstract

As large language models (LLMs) see greater use in academic and commercial settings, there is increasing interest in methods that allow language models to generate texts aligned with →

language models optimization human preferences causal problem doubly robust cpo

发现论文，激发创造

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

大型语言模型的多参考偏好优化

如何使大型语言模型与人类意图和价值相吻合？通过引入多个参考模型的直接偏好优化方法，我们提出了一种新的闭式表达式，名为多参考模型偏好优化（MRPO），从多样化的参考模型中利用更广泛的先验知识，显著增强了偏好学习能力。我们的实验证明，使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力，无论数据稀缺还是丰富。此外，MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。

May, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

基于语言模型的贝叶斯偏好引导

将 AI 系统与用户的兴趣相协调需要理解和融入人类复杂的价值观和偏好。我们介绍了一个名为 OPEN 的框架，它利用贝叶斯最优实验设计（BOED）指导选择信息丰富的问题，并利用语言模型（LM）提取特征和将抽象的 BOED 查询转化为自然语言问题。通过将 LM 的灵活性与 BOED 的严谨性结合起来，OPEN 能够在保持适应性于现实世界领域的同时优化查询的信息量。用户研究中显示，OPEN 在偏好获取方面优于现有的基于 LM 和 BOED 的方法。

Mar, 2024

探索面向大型语言模型的偏好优化算法

离线偏好优化是提升和控制大型语言模型输出质量的关键方法。我们通过 LLM 驱动的目标发现，自动发现新的最先进的偏好优化算法，无需人工干预。这导致了先前未知且表现良好的偏好优化算法的发现，其中表现最好的算法被称为 DiscoPOP，它是一种新的自适应混合逻辑和指数损失的算法。实验证明了 DiscoPOP 的最先进性能及其成功的迁移到保留任务。

Jun, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。

Jun, 2024