EMNLPAug, 2021

通过逐层权值污染对预训练模型进行后门攻击

TL;DR本文提出一种更强的权重污染攻击方法,引入逐层权重污染策略以种植更深层次的后门;我们还引入一种组合式触发器,不能轻易检测。实验表明,以前的防御方法无法抵抗我们的权重污染方法,这表明我们的方法可以被广泛应用,并为未来的模型鲁棒性研究提供线索。