ACLMay, 2024
SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks
Xuanli He, Qiongkai Xu, Jun Wang, Benjamin I. P. Rubinstein, Trevor Cohn
TL;DR通过利用训练动态识别有毒样本并进行标签传播以提高召回率,我们提出了一种新颖的防御机制,有效降低了多种后门攻击的成功率,并保持了对干净测试集高准确度的分类。