探索对抗图像的空间
本文通过研究表明,图像分类网络对于对抗性攻击的脆弱性与其性能之间是一种互相联系的关系,因为网络中最容易受攻击的输入图像方向也是它们用于实现其分类性能的方向。此外,这种关系对于构建既精确又具有抵抗对抗攻击能力的神经网络具有深远的影响。
Jul, 2018
本文提出了一种新的对抗攻击方法,通过扰动表示样式的抽象特征,包括可解释和不可解释的风格,诸如鲜艳色彩和锐利轮廓等,通过优化程序注入难以察觉的风格变化,实现深度神经网络模型误分类,我们展示了该方法产生的对抗样本比现有的非受限制攻击更加自然,并支持现有的像素空间的对抗攻击检测和防御技术难以在风格相关特征空间中保证模型的鲁棒性。
Apr, 2020
本文针对深度神经网络生成对抗样本的问题展开了研究,提出了针对 3D 物理性质改变的对抗样本生成方法,并通过在 2D 输入图像前增加可渲染模块的方式,成功地将对抗扰动提升到物理空间,检验了所设计的方法的有效性。
Nov, 2017
本文提出了一种新类的对抗样本 ——“语义对抗样本”,即通过对图像进行任意扰动来欺骗模型,但修改后的图像在语义上代表的仍是原始图像,通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换,生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。
Mar, 2018
针对深度神经网络易受对抗性攻击的问题,本文提出了一种基于特征重构的防御方法,具体来说,通过将每个类别的特征强制限制在一个凸多面体内,使得网络学习到的决策区域更加独特和远离各个类别的边界,提高了网络的鲁棒性,同时在干净图像的分类性能上不会退化。
Apr, 2019
该研究介绍了一个名为 Adversarial-Playground 的基于 Web 的可视化工具,用于教育和探索深度学习在安全应用程序中的漏洞,并演示共同对抗策略对卷积神经网络的有效性。
Aug, 2017