BriefGPT.xyz
Ask
alpha
关键词
representation noising
搜索结果 - 1
表征加噪有效地预防语言模型的有害微调
我们提出了一种名为 Representation Noising (RepNoise) 的防御机制,它能在攻击者具有权重且防御者无法控制的情况下,有效地消除有害表示的信息,从而使恶意微调变得困难,并能在不同的有害子集上泛化,同时不降低大型语
→
PDF
a month ago
Prev
Next