使用合成偏好数据对语言模型进行可配置的安全调整

Mar, 2024

使用合成偏好数据对语言模型进行可配置的安全调整

Configurable Safety Tuning of Language Models with Synthetic Preference Data

Victor Gallego

TL;DR提出了一种 Configurable Safety Tuning (CST) 方法，通过使用合成的偏好数据，来增强 Direct Preference Optimization (DPO) 在推理时对语言模型的灵活安全配置，有效地处理了用户控制受限的问题，并通过引入系统提示来实现灵活地启用 / 禁用安全偏好，数据和模型可以在给出的链接中找到。

Abstract

State-of-the-art language model fine-tuning techniques, such as Direct Preference Optimization (DPO), restrict user control by hard-coding predefined behaviors into the model. To address this, we propose a novel method,

language model fine-tuning direct preference optimization configurable safety tuning system prompt configurable deployment

发现论文，激发创造

通过受限的直接优化倾向提升 LLM 的安全性

通过引入 Constrained DPO (C-DPO) 方法，本研究提出了一种高效且轻量级的方法，用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束，从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。

Mar, 2024

偏好调整用于跨语言毒性缓解

通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练，能够显著降低多语言开放生成中的有害信息。通过一系列实验证明，在训练后，mGPT-1.3B 生成有害连续内容的概率从 46.8% 降低到了 3.9%，涵盖了 17 种不同的语言。我们的结果也适用于其他多语言大型语言模型，如 BLOOM、Llama3 和 Aya-23。通过因果干预和激活分析等机械性可解释性工具，我们发现了多语言感知层在多语言大型语言模型中的双重特性，这解释了直接优化训练的跨语言泛化。最后，我们展示了双语句子检索可以预测 DPO 偏好调整的跨语言可迁移性。

Jun, 2024

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

优化语言模型以符合人类偏好的问题的因果推断

对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Feb, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

约束语言模型策略优化的逐步对齐

这篇论文提出了一种基于大型语言模型（LLMs）的人类价值对齐作为语言模型策略优化问题的方法，以在安全约束下最大化奖励，并提出了一种名为 SACPO 的算法。通过直接优化偏好方法等简单而强大的对齐算法，SACPO 可以逐步对齐 LLMs 与每个度量标准，并在算法和数据集选择方面提供了简单性、稳定性、计算效率和灵活性。在温和假设下，我们的理论分析提供了近似最优性和安全约束违反的上界。实验结果表明，SACPO 在有益性和无害性方面可以比最先进的方法更好地调整 Alpaca-7B。

Apr, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024