抵御语义保护的对抗性攻击的鲁棒深度学习模型

Apr, 2023

抵御语义保护的对抗性攻击的鲁棒深度学习模型

Robust Deep Learning Models Against Semantic-Preserving Adversarial Attack

Dashan Gao, Yunce Zhao, Yinghua Yao, Zeqi Zhang, Bifei Mao...

TL;DR本文使用语义保持的敌对攻击机制（SPA 攻击）研究了深度学习模型对联合扰动的鲁棒性，使用属性调节器生成自然可理解的扰动并使用噪声生成器生成不同敌对噪声，并结合此类扰动来生成联合扰动样本以用于深度学习模型的鲁棒性训练。实验结果表明，SPA 攻击会使性能下降，并且优于现有的防御方法。

Abstract

deep learning models can be fooled by small $l_p$-norm adversarial perturbations and natural perturbations in terms of attributes. Although the robustness against each perturbation has been explored, it remains a

deep learning models adversarial perturbations robustness spa attack adversarial training

发现论文，激发创造

通过语义操纵生成无限制对抗性样本

通过引入语义感知扰动来生成有效和逼真的对抗性样本，该方法在复杂数据集（如 ImageNet 和 MSCOCO）上针对图像分类和图像字幕任务进行了有效应用，且经综合用户研究证明其较其他攻击更为逼真。

Apr, 2019

SemanticAdv: 基于属性条件图像编辑的生成对抗样本方法

本研究旨在探索语义干扰对深度神经网络预测结果的影响，并通过提出的算法 SemanticAdv 来生成对各种 “对抗性” 目标偏离的扰动，从而欺骗深度神经网络。实验结果表明，具有控制语义干扰的对抗性例子不仅可以迷惑不同的学习任务，还可以对抗基于迁移的真实世界黑盒服务。

Jun, 2019

通过特征操纵生成语义对抗样本

本文提出了一种实用的针对深度神经网络的对抗攻击方法，通过语义意义感知的结构化扰动来操纵图像的语义属性，以此生成针对黑盒分类器的对抗扰动，并提出了两种无监督的语义操作方法，通过在潜在空间中扰动单个或多个潜在因素，并在真实图像数据上进行大量实验，证明了其能力的强大性，同时也论证了普适于所有图像的语义对抗样本的存在。

Jan, 2020

结构性对抗攻击：向通用实现和更好的可解释性迈进

本文提出一种名为 StrAttack 的结构化攻击模型，通过滑动掩模来提取关键的空间结构并具有更好的可解释性，该模型能够实现与现有攻击方法相同水平的 Lp 范数失真的强组稀疏化。实验证明 StrAttack 在 MNIST、CIFAR-10 和 ImageNet 数据集上的攻击效果是有效的。

Aug, 2018

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的 CLIP 模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023

迈向组合性对抗性鲁棒性：将对抗性训练推广到复合语义扰动

本文提出了一种新的生成组合对抗样本的方法和一种广义对抗训练方法，能够实现模型对多种组合语义扰动的鲁棒性，包括色调、饱和度、亮度、对比度和旋转等，并在 ImageNet 和 CIFAR-10 数据集上具有显著性能优势。

Feb, 2022

基于扩散模型的语义对抗攻击

通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Sep, 2023

针对自然扰动的属性引导对抗训练

本文提出了一种基于对抗训练的方法，用于使深度神经网络具有对各种自然产生的扰动的鲁棒性，解决了当前小像素级扰动方法的不足，关键在于最大化分类器对属性空间的曝光度。

Dec, 2020

评估语义分割模型的对抗鲁棒性

该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性，并发现只有使用对抗样本进行训练才能获得鲁棒性，并分析了鲁棒性和准确性之间的权衡。

Jun, 2023

结构保持转化：生成多样性和可迁移性对抗样本

本研究提出了一种结构保持转换（SPT）方法生成自然且多样化的对抗样本，它允许在保持对人的分类器至关重要的结构模式的同时，让对抗样本呈现可感知的偏差，具有极高的可迁移性。在 MNIST 和 Fashion-MNIST 数据集上的实证结果表明，本研究的对抗样本可以轻松地绕过强有力的对抗训练，并且可以在攻击其他目标模型时有着自然的表现，并且攻击成功率有所下降或没有下降。

Sep, 2018