Apr, 2019

通过激活增强和抑制解释对抗样本

TL;DR本文旨在更好地理解对 CNNs 的对抗扰动机制,并从像素、图像和网络视角提供可视化解释,证明对抗扰动具有促进 - 抑制效应(PSE),并可以主要分类为三种类型:压制型扰动、推广型扰动和平衡扰动。 它在像素级扰动的 PSE 与定位的类特定判别性图像区域之间提供图像级可解释性,并通过网络分解检查了对抗性的效应,这提供了隐藏单元的概念级可解释性。 在我们的解释下,提供了一些新的见解来提高网络的对抗性强度。