Nov, 2021

对抗鲁棒性的统一博弈理论解释

TL;DR提供了一个统一的观点来解释不同的对抗性攻击和防御方法,即 DNNs 输入变量之间的多阶交互视图。基于多阶交互,我们发现对抗性攻击主要影响高阶交互来愚弄 DNN。此外,我们发现对抗性训练的 DNN 的鲁棒性来自类别特定的低阶交互。我们的发现提供了一种潜在的方法来统一对抗性扰动和稳健性,可以从原则上解释现有的防御方法。此外,我们的发现也修正了先前关于对抗性学习特征的有关形状偏差的不准确理解。