ICLRSep, 2021

如何更一致地使用逻辑锚定在干净数据上注入后门

TL;DR通过研究添加后门攻击所需的 Adversarial Weight Perturbation (AWP),提出了一种称为 “锚点损失” 的方法,通过固定模型对清洗数据的行为来提高模型的整体和实例间结果的一致性。