AAAIApr, 2020

基于特征空间的对抗攻击

TL;DR本文提出了一种新的对抗攻击方法,通过扰动表示样式的抽象特征,包括可解释和不可解释的风格,诸如鲜艳色彩和锐利轮廓等,通过优化程序注入难以察觉的风格变化,实现深度神经网络模型误分类,我们展示了该方法产生的对抗样本比现有的非受限制攻击更加自然,并支持现有的像素空间的对抗攻击检测和防御技术难以在风格相关特征空间中保证模型的鲁棒性。