ACLMay, 2024

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

TL;DR通过利用训练动态识别有毒样本并进行标签传播以提高召回率,我们提出了一种新颖的防御机制,有效降低了多种后门攻击的成功率,并保持了对干净测试集高准确度的分类。