偏好调整用于跨语言毒性缓解

Jun, 2024

Preference Tuning For Toxicity Mitigation Generalizes Across Languages

Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach

TL;DR通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练，能够显著降低多语言开放生成中的有害信息。通过一系列实验证明，在训练后，mGPT-1.3B 生成有害连续内容的概率从 46.8% 降低到了 3.9%，涵盖了 17 种不同的语言。我们的结果也适用于其他多语言大型语言模型，如 BLOOM、Llama3 和 Aya-23。通过因果干预和激活分析等机械性可解释性工具，我们发现了多语言感知层在多语言大型语言模型中的双重特性，这解释了直接优化训练的跨语言泛化。最后，我们展示了双语句子检索可以预测 DPO 偏好调整的跨语言可迁移性。

Abstract

detoxifying multilingual large language models (LLMs) has become crucial due to their increasing global use. In this work, we explore zero-shot cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike previous studies that show limited cross-lingual generalization

detoxifying multilingual large language models zero-shot cross-lingual generalization direct preference optimization (dpo) training multilingual open-ended generations bilingual sentence retrieval

发现论文，激发创造

PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估

通过引入 PolygloToxicityPrompts（PTP）评测标准，我们对 17 种语言的 425K 自然出现的提示进行了首次大规模多语种毒性评估，发现了语言资源减少和模型大小增加会增加毒性的现象，并且指导性微调方法选择对毒性没有显著影响，揭示了大型语言模型安全性的关键不足之处，并为未来的研究提供了重要的方向。

May, 2024

比对算法的机制性理解：以 DPO 和毒性为案例研究

本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域，并提出了一种简单的方法来逆转模型的对齐，使其恢复其有毒行为。

Jan, 2024

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024

DeTox: 模型编辑的有毒子空间投影

通过因子分析理论，引入无需调优的对齐替代方案（DeTox），该方案通过从模型的参数空间中检测出有毒子空间，通过投影方式去除检测到的子空间，从而减少模型的有毒性。我们证明了 DeTox 比 DPO 更加高效，并且对噪声数据具有更强的鲁棒性。最后，我们建立了 DeTox 和 DPO 之间的理论和实证关系，并展示了 DeTox 可以被解释为单一 DPO 步骤的去噪版本。

May, 2024

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

PHOENIX: 开源的语言适应直接偏好优化

使用最新的改进，应用直接偏好优化（DPO）方法于德语，建立在大语言模型的基础上，探索了语言模型的转移学习、架构改进和直接偏好优化等研究领域。

Jan, 2024

MAPO：通过多语言对齐优化推进多语言推理

通过采用一种对齐作为优选优化框架，我们在非中心语言中提高了推理能力，推理一致性得到了改善，并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。

Jan, 2024

使用合成偏好数据对语言模型进行可配置的安全调整

提出了一种 Configurable Safety Tuning (CST) 方法，通过使用合成的偏好数据，来增强 Direct Preference Optimization (DPO) 在推理时对语言模型的灵活安全配置，有效地处理了用户控制受限的问题，并通过引入系统提示来实现灵活地启用 / 禁用安全偏好，数据和模型可以在给出的链接中找到。

Mar, 2024

语言代理的多轮偏好直接优化

通过使用 DMPO 损失函数，对多回合任务中的大型语言模型（LLMs）进行适应，可以优化强化学习（RL）目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。

Jun, 2024