Jun, 2024

偏好调整用于跨语言毒性缓解

TL;DR通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练,能够显著降低多语言开放生成中的有害信息。通过一系列实验证明,在训练后,mGPT-1.3B 生成有害连续内容的概率从 46.8% 降低到了 3.9%,涵盖了 17 种不同的语言。我们的结果也适用于其他多语言大型语言模型,如 BLOOM、Llama3 和 Aya-23。通过因果干预和激活分析等机械性可解释性工具,我们发现了多语言感知层在多语言大型语言模型中的双重特性,这解释了直接优化训练的跨语言泛化。最后,我们展示了双语句子检索可以预测 DPO 偏好调整的跨语言可迁移性。