使用合成偏好数据对语言模型进行可配置的安全调整
通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练,能够显著降低多语言开放生成中的有害信息。通过一系列实验证明,在训练后,mGPT-1.3B 生成有害连续内容的概率从 46.8% 降低到了 3.9%,涵盖了 17 种不同的语言。我们的结果也适用于其他多语言大型语言模型,如 BLOOM、Llama3 和 Aya-23。通过因果干预和激活分析等机械性可解释性工具,我们发现了多语言感知层在多语言大型语言模型中的双重特性,这解释了直接优化训练的跨语言泛化。最后,我们展示了双语句子检索可以预测 DPO 偏好调整的跨语言可迁移性。
Jun, 2024
提出一种称为 “rDPO” 的方法,通过自我批评引导创建合成数据,并利用广义的 DPO 损失函数蒸馏为学生 LLM,其中使用额外的外部奖励模型提高合成数据质量,从而改善大型语言模型的行为对齐。
Feb, 2024
对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐,但存在某些局限性。为了克服这些限制,本文提出了一种参数高效调优的对齐方法(MEET),通过改进控制标记的质量,在两个知名数据集上相比之前的方法明显提高了可控生成的质量。
Oct, 2023
引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。
May, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
对大型语言模型的优化进行了初步探索,为了使模型正确学习文本和结果之间的关系,提出了因果语言优化问题的形式化,开发了解决该问题的方法 —— 因果偏好优化(CPO),并扩展了双重稳健 CPO(DR-CPO),最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。
Feb, 2024
通过引入自我增强式优化(SAPO)方法,本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化,不依赖于现有的配对数据,通过自我对弈生成负面响应,并结合离线对比基线和历史数据的实时反馈来动态更新响应段,从而匹配或超过现有离线对比的基线方法,如 Direct Preference Optimization 和 Odds Ratio Preference Optimization,同时优于离线自我对弈方法,如 SPIN。
May, 2024
这篇论文提出了一种基于大型语言模型(LLMs)的人类价值对齐作为语言模型策略优化问题的方法,以在安全约束下最大化奖励,并提出了一种名为 SACPO 的算法。通过直接优化偏好方法等简单而强大的对齐算法,SACPO 可以逐步对齐 LLMs 与每个度量标准,并在算法和数据集选择方面提供了简单性、稳定性、计算效率和灵活性。在温和假设下,我们的理论分析提供了近似最优性和安全约束违反的上界。实验结果表明,SACPO 在有益性和无害性方面可以比最先进的方法更好地调整 Alpaca-7B。
Apr, 2024
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
May, 2024