结构性对抗攻击：向通用实现和更好的可解释性迈进

ICLRAug, 2018

结构性对抗攻击：向通用实现和更好的可解释性迈进

Structured Adversarial Attack: Towards General Implementation and Better Interpretability

Kaidi Xu, Sijia Liu, Pu Zhao, Pin-Yu Chen, Huan Zhang...

TL;DR本文提出一种名为 StrAttack 的结构化攻击模型，通过滑动掩模来提取关键的空间结构并具有更好的可解释性，该模型能够实现与现有攻击方法相同水平的 Lp 范数失真的强组稀疏化。实验证明 StrAttack 在 MNIST、CIFAR-10 和 ImageNet 数据集上的攻击效果是有效的。

Abstract

When generating adversarial examples to attack deep neural networks (DNNs), Lp norm of the added perturbation is usually used to measure the similarity between original image and adversarial example. However, such adversarial attacks perturbing the raw input spaces may fail to capture structural information hidden in the input. This work develops a more gene

adversarial attack structured attack group sparsity admm interpretability

发现论文，激发创造

分组稀疏和可解释的对抗攻击

通过在图像的语义相关区域同时生成群组稀疏攻击的优化算法，在保持较低干扰量的同时，显著提高了群组稀疏性，且具备较快的计算速度和百分之百的攻击成功率。

Nov, 2023

稀疏且不易察觉的对抗攻击

本文提出了一种基于黑盒技术的新型对抗样本攻击方法，针对原始图像最小化 l0 距离。实验证明，该攻击方法优于或与现有技术相当。同时，我们可引入部件约束来提高分类器对稀疏和不可察觉的对抗性操纵的鲁棒性。

Sep, 2019

结构保持转化：生成多样性和可迁移性对抗样本

本研究提出了一种结构保持转换（SPT）方法生成自然且多样化的对抗样本，它允许在保持对人的分类器至关重要的结构模式的同时，让对抗样本呈现可感知的偏差，具有极高的可迁移性。在 MNIST 和 Fashion-MNIST 数据集上的实证结果表明，本研究的对抗样本可以轻松地绕过强有力的对抗训练，并且可以在攻击其他目标模型时有着自然的表现，并且攻击成功率有所下降或没有下降。

Sep, 2018

空间变换对抗样本

本文研究深度神经网络中的对抗样本问题，提出了一种新的扰动方法：利用空间变换生成对抗性样本以增强样本的感知逼真度，证明这种方法在现有防御系统方面更加具有挑战性，并通过可视化技术研究神经网络对不同类型对抗样本的感知。

Jan, 2018

快速自适应边界攻击生成最小扭曲的对抗样本

本文提出了一种新的基于 $l_p$-norms 的白盒对抗攻击方法，通过最小化扰动的大小来改变特定输入的类别，这个方法具有几何直观性，是一种性能优越的攻击方法，比专门针对一个 $l_p$-norm 的攻击方法具有更好的鲁棒性，并且可以解决梯度掩盖的问题。

Jul, 2019

感知约束对抗攻击

该论文提出使用 SSIM 替代 $L_p$ 范数来衡量对抗性样本在图像分类中的感知质量，并表明这种方法比之前的方法更好，以及该方法可以用于评估防御方案的性能。

Feb, 2021

基于范数正则化的结构化梯度解释方法

通过对简单梯度方案进行稀疏性及连接性调整，采用对抗训练作为一种内部处理方案，设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。

Apr, 2024

抵御语义保护的对抗性攻击的鲁棒深度学习模型

本文使用语义保持的敌对攻击机制（SPA 攻击）研究了深度学习模型对联合扰动的鲁棒性，使用属性调节器生成自然可理解的扰动并使用噪声生成器生成不同敌对噪声，并结合此类扰动来生成联合扰动样本以用于深度学习模型的鲁棒性训练。实验结果表明，SPA 攻击会使性能下降，并且优于现有的防御方法。

Apr, 2023

基于 ADMM 的深度神经网络敌对攻击通用框架

本文采用 ADMM（Alternating Direction Method of Multipliers）的算子分裂优化方法来生成对抗样本，统一了 L0，L1，L2 和 L infinity 攻击的方法，与当前领先的攻击方法相比，实验结果表明本文的 ADMM-based methods 是迄今为止最强的，能够实现 100% 攻击成功率和最小扰动。

Apr, 2018

保持结构的渐进低秩图像修复，以抵御对抗性攻击

该论文提出了一种结构保持的渐进低秩图像完成（SPLIC）方法，旨在通过去除输入图像中不必要的纹理细节并将深度神经网络的偏差转移至全局物体结构和语义线索来提高其对抗性防御。实验结果表明，该方法能够成功地去除不重要的局部图像细节，同时保留重要的全局物体结构，从而显著提高了神经网络的对抗稳健性。

Mar, 2021