Jul, 2024
低调专家:语言模型中的毒性缓解的神经干预
Whispering Experts: Neural Interventions for Toxicity Mitigation in
Language Models
TL;DR通过降低与网络毒性内容识别相关的神经元的激活水平,我们提出了AUROC适应(AurA)的方法,可以减轻大型语言模型中的毒性,并且在保留常识零样本能力的同时,已经证明了其对不同规模的模型有效,并且即使结合了预提示策略,从而提高了平均缓解潜力。此外,AurA可以对抗恶意引导的毒性内容,并使模型更安全和更少有毒。