用直接原则反馈抑制粉色大象

Feb, 2024

Suppressing Pink Elephants with Direct Principle Feedback

Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma...

TL;DR通过对现有语言模型的控制方法如 RLHF 和宪法 AI 的研究，我们发现在许多情况下，希望在推理时对语言模型进行控制，以便在不同背景下满足多样化的需求。我们通过一个 “粉象问题” 示例说明了这一点，即指导语言模型避免讨论某一特定实体（“粉象”），而是讨论一个首选实体（“灰象”）。我们应用一种新颖的宪法 AI 简化方法，即 “直接原则反馈”，跳过对回应的排序，并直接使用 DPO 在评论和修改上。我们的研究结果表明，在我们的合成粉象数据集上进行 DPF 微调后，我们的 13B 微调 LLaMA 2 模型在性能上显着优于 Llama-2-13B-Chat 和基准测试，并且在我们对粉象问题进行评估的策划测试集中表现与 GPT-4 相当。

Abstract

Existing methods for controlling language models, such as rlhf and constitutional ai, involve determining which LLM behaviors are desirabl

controlling language models rlhf constitutional ai controllability at inference time pink elephant problem

发现论文，激发创造

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

通过受限的直接优化倾向提升 LLM 的安全性

通过引入 Constrained DPO (C-DPO) 方法，本研究提出了一种高效且轻量级的方法，用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束，从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。

Mar, 2024

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

通过直接偏好优化的自我训练改进链索式推理

研究表明，通过自我训练和直接偏好优化方法，能够提高小规模语言模型在数学推理任务中的推理能力，从而提供一种比依赖大型专有语言模型更高效且可扩展的解决方案。

Jul, 2024

RLVF：无泛化的口头反馈学习

在大语言模型中引入高级口头反馈以传达特定要求和偏好的能力是重要的，本文提出了一种名为 C3PO 的方法，通过生成小规模合成偏好数据集并最小化与原始模型的差异来有效地应用口头反馈，同时减少了过度泛化。

Feb, 2024

直接优化偏好的新准则

基于直接偏好优化（DPO）本身存在未解决的缺陷，此研究提出一种代替的 DPO 损失函数，以缓解低质量响应和约束处理方面的权衡问题，并通过实证结果验证了分析的重要方面。

Jul, 2024

利用语言反馈模型进行政策改进

我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Feb, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

不同个性化的协同 LML 构建

这篇论文提出了一种新颖的方法，用于将大型语言模型（LLMs）与个人偏好进行匹配，有时被称为个性化人工反馈的强化学习（RLPHF）方法。通过合并多个专门训练在特定偏好维度上的专家 LLMs 的输出，使用黑盒方法在标记级别上生成文本，并通过训练轻量级偏好控制模型（PCM）动态地调整下一个标记的预测权重，从而优化给定的偏好。实证测试表明，该方法与现有的偏好合并技术相匹配甚至超过，提供了一种可扩展的、高效的用于个人化的 LLMs 微调的替代方法。

Jul, 2024