May, 2024

表征加噪有效地预防语言模型的有害微调

TL;DR我们提出了一种名为 Representation Noising (RepNoise) 的防御机制,它能在攻击者具有权重且防御者无法控制的情况下,有效地消除有害表示的信息,从而使恶意微调变得困难,并能在不同的有害子集上泛化,同时不降低大型语言模型的一般能力。