ACLApr, 2020

预训练模型的权重污染攻击

TL;DR该研究重点讨论了使用大型预先训练模型的安全风险,提出了一种称为 RIPPLe 的正则化方法和一种称为嵌入手术的初始化方法,以防止称为权重污染的攻击,该攻击可以注入安全漏洞。进一步实验证明该攻击可能性很高,对多种应用都带来了严重威胁。