CVPROct, 2016

通用对抗扰动

TL;DR本文研究了深度神经网络分类器,发现存在普适的微小扰动对所有图像都造成高概率的错误分类,并提出了计算普适扰动的系统算法,证明现有神经网络非常容易受到该扰动攻击,从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动,对多个神经网络进行了实证分析并发现它们具有良好的通用性,揭示了分类器高维决策边界之间的重要几何相关性,并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。