EMNLPAug, 2021
通过逐层权值污染对预训练模型进行后门攻击
Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning
Linyang Li, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma...
TL;DR本文提出一种更强的权重污染攻击方法,引入逐层权重污染策略以种植更深层次的后门;我们还引入一种组合式触发器,不能轻易检测。实验表明,以前的防御方法无法抵抗我们的权重污染方法,这表明我们的方法可以被广泛应用,并为未来的模型鲁棒性研究提供线索。