通过受限的直接优化倾向提升 LLM 的安全性

Mar, 2024

通过受限的直接优化倾向提升 LLM 的安全性

Enhancing LLM Safety via Constrained Direct Preference Optimization

Zixuan Liu, Xiaolin Sun, Zizhan Zheng

TL;DR通过引入 Constrained DPO (C-DPO) 方法，本研究提出了一种高效且轻量级的方法，用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束，从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。

Abstract

The rapidly increasing capabilities of large language models (LLMs) raise an urgent need to align ai systems with diverse human preferences to simultaneously enhance their usefulness and safety, despite the often

large language models ai systems safety constraint reinforcement learning from human feedback constrained dpo

发现论文，激发创造

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

大语言模型的单次安全对准

将安全限制与人类偏好对齐的计算方法，通过预优化光滑凸函数，消除了原始 - 对偶策略迭代的繁琐过程，大大降低了计算负担和提高了训练稳定性。

May, 2024

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024