Apr, 2024

受害者与受益者:利用被注入毒数据的模型训练干净数据的模型

TL;DR通过使用预测熵来区分污染样本和良性样本,本文提出了一种新的双网络训练框架:受害者和受益者 (V&B),通过在可疑样本上训练受害者网络来检测有毒样本,然后用受害者选出的可信样本训练受益者网络以抑制后门注入,同时采用半监督抑制策略以消除潜在的后门,并提出了AttentionMix强大的数据增强方法来更好地抑制被错过的有毒样本,大量实验证明了我们的框架在防止后门注入和对抗各种攻击方面的有效性,并能保持良性样本上的性能。