消融不够以模拟DPO:神经元动态驱动的毒性降低
本研究提出了两种新的预训练数据增强策略(MEDA 和 INST),可以显著降低模型的有毒内容,而不影响其实用性,进而证明我们的最佳策略(INST)可将模型毒性概率降低长达61%,同时在五个基准 NLP 任务上保持准确性并将四个偏差检测任务的AUC得分提高了1.3%。我们还展示了该技术的泛化性,通过提高训练样本和模型参数的数量。
Feb, 2023
发展一个解释神经元生理学的规范理论,将神经元视为最佳反馈控制器,利用新的DD-DC框架对神经元进行建模,从而解释了神经生理现象并提供了构建神经网络的新方法。
Jan, 2024
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域,并提出了一种简单的方法来逆转模型的对齐,使其恢复其有毒行为。
Jan, 2024
通过引入PolygloToxicityPrompts(PTP)评测标准,我们对17种语言的425K自然出现的提示进行了首次大规模多语种毒性评估,发现了语言资源减少和模型大小增加会增加毒性的现象,并且指导性微调方法选择对毒性没有显著影响,揭示了大型语言模型安全性的关键不足之处,并为未来的研究提供了重要的方向。
May, 2024
创新的训练算法ADPO提高了模型对有害对话的鲁棒性,同时最大限度地减少性能下降,并首次将有害数据直接纳入生成模型中,减少了人工创建安全对话数据的需求。
May, 2024
通过因子分析理论,引入无需调优的对齐替代方案(DeTox),该方案通过从模型的参数空间中检测出有毒子空间,通过投影方式去除检测到的子空间,从而减少模型的有毒性。我们证明了DeTox比DPO更加高效,并且对噪声数据具有更强的鲁棒性。最后,我们建立了DeTox和DPO之间的理论和实证关系,并展示了DeTox可以被解释为单一DPO步骤的去噪版本。
May, 2024
在这项工作中,我们研究了以直接策略优化(DPO)为基础的强化学习模型在不同情景下对攻击的脆弱性,并比较了首次提出的偏好污染攻击的有效性。我们发现,相比于基于Proximal Policy Optimization(PPO)方法的模型,DPO更容易受到攻击,只需在数据中注入0.5%的毒数据即可产生有害行为,而PPO方法则需要至少4%的毒数据才能导致有害行为。我们还进一步探究了这种脆弱性背后的潜在原因以及该脆弱性在背门和非背门攻击中的表现。
Jun, 2024
通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练,能够显著降低多语言开放生成中的有害信息。通过一系列实验证明,在训练后,mGPT-1.3B生成有害连续内容的概率从46.8%降低到了3.9%,涵盖了17种不同的语言。我们的结果也适用于其他多语言大型语言模型,如BLOOM、Llama3和Aya-23。通过因果干预和激活分析等机械性可解释性工具,我们发现了多语言感知层在多语言大型语言模型中的双重特性,这解释了直接优化训练的跨语言泛化。最后,我们展示了双语句子检索可以预测DPO偏好调整的跨语言可迁移性。
Jun, 2024
通过降低与网络毒性内容识别相关的神经元的激活水平,我们提出了AUROC适应(AurA)的方法,可以减轻大型语言模型中的毒性,并且在保留常识零样本能力的同时,已经证明了其对不同规模的模型有效,并且即使结合了预提示策略,从而提高了平均缓解潜力。此外,AurA可以对抗恶意引导的毒性内容,并使模型更安全和更少有毒。
Jul, 2024
本研究解决了微调语言模型可能导致的安全性问题,探讨其对不同开放模型生成有毒内容倾向的影响。通过对Gemma、Llama和Phi模型的三个实验,我们发现少量的高效参数微调可以显著改变模型的毒性表现,并揭示了社区贡献者微调模型在实际应用中可能出现的不确定性。
Oct, 2024