ICLRSep, 2021
如何更一致地使用逻辑锚定在干净数据上注入后门
How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data
Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun
TL;DR通过研究添加后门攻击所需的 Adversarial Weight Perturbation (AWP),提出了一种称为 “锚点损失” 的方法,通过固定模型对清洗数据的行为来提高模型的整体和实例间结果的一致性。