Jun, 2022

当对抗性攻击变成可解释性因果解释

TL;DR本研究采用 1-Lipschitz 神经网络学习最佳传输问题的双重损失,研究发现,模型的梯度既是传输计划的方向,也是最接近的对抗攻击方向。通过在此类网络上应用简单的显著性图方法,我们得出结论:这种方法成为了可靠的解释方法,并在无限制模型上表现优于现有技术。我们提出的网络已被证明具有认证的鲁棒性,并证明了它们也可以用一种快速简单的方法进行解释。