BriefGPT.xyz
Ask
alpha
关键词
dual-use risk
搜索结果 - 2
表征加噪有效地预防语言模型的有害微调
我们提出了一种名为 Representation Noising (RepNoise) 的防御机制,它能在攻击者具有权重且防御者无法控制的情况下,有效地消除有害表示的信息,从而使恶意微调变得困难,并能在不同的有害子集上泛化,同时不降低大型语
→
PDF
a month ago
ICML
自毁模型:增加基础模型有害双重用途的成本
该研究提出了一种名为「任务屏蔽」的新的训练范式,使用元学习和对抗学习的技术训练出一种自毁机制的基础模型来预防对有害任务的适应,降低其潜在风险。
PDF
2 years ago
Prev
Next