通过平移不变攻击规避转移对抗样本的防御

CVPRApr, 2019

通过平移不变攻击规避转移对抗样本的防御

Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu

TL;DR本文提出了一种翻译不变攻击方法，该方法利用一个翻译图像集合上的扰动以生成更易于转移的对抗示例，并表明该方法通常适用于任何梯度攻击方法。作者在 ImageNet 数据集上广泛实验验证了该方法的有效性，并证明该攻击技术的存在不安全性。

Abstract

deep neural networks are vulnerable to adversarial examples, which can mislead classifiers by adding imperceptible perturbations. An intriguing property of →

deep neural networks adversarial examples transferability defense methods attack

发现论文，激发创造

理解和提升对抗样本的可迁移性

本文系统研究了影响对抗样本传递性的两类因素，包括网络结构、测试精度等模型特定因素和构建对抗样本的损失函数的局部光滑性。基于这些理解，提出了一种简单而有效的策略来增强传递性，称为方差降低攻击，因为它利用方差降低梯度来生成对抗样本，实验结果表明其有效性。

Feb, 2018

梯度细化改善对抗迁移能力

采用梯度修正的方法，可进一步提高对抗性转移性，通过对多个转换引入的无用梯度进行修正，我们的方法在 ImageNet 数据集上可以实现 82.07％的平均转移成功率，在单模型设置下胜过其他最先进的方法的平均 6.0％，并且我们已将所提出的方法应用于由阿里巴巴组织的 CVPR 2021 ImageNet 无限制对抗攻击比赛中，攻击成功率在 1558 支队伍中排名第二。

May, 2021

重新审视可转移对抗图像示例：攻击分类、评估准则和新见解

通过建立新的评估准则，我们在 ImageNet 上对 23 种典型攻击与 9 种代表性防御进行了首次大规模的可传递对抗样本评估，发现既有的评估存在误导性结论和遗漏点，从而阻碍了该领域的实际进展评估。

Oct, 2023

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023

探究可转移的对抗样本和黑盒攻击

本文首次对大规模数据集和大型模型进行了对抗样本的可迁移性的研究，同时也是首次研究了设计有目标的对抗样本在其目标标签之间的可转移性。通过新颖的集成方法，本文发现大量有目标的对抗样本可以成功地与其目标标签一起转移，并且这些使用集成方法生成的对抗样本可以成功地攻击黑匣子图像分类系统 Clarifai.com。

Nov, 2016

对抗扰动的跨域可转移性

本研究首次证明存在领域不变的对抗性攻击，提出了一个用于在不同领域中高度转移的攻击框架，核心是一个可生成网络，具有相对论监督信号，能够实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能，并且尽管它是一个无实例特定扰动的函数，但优于传统上更强的实例特定攻击方法。

May, 2019

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

来自贝叶斯神经网络的有效且可迁移的对抗样本

使用贝叶斯深度学习技术，以神经网络权重的后验分布进行抽样建立一个 surrogate，可以进一步提高黑盒攻击的可转移性，本文探究了提高攻击可转移性的训练方法，将我们方法的表现与几种已有方法进行了比较，能够在 ImageNet 上获得 94% 的准确率。

Nov, 2020

提升对抗传递性的技巧包

通过对现有对抗性攻击的仔细研究，我们提出了一系列技巧来增强对抗性传递性，包括动量初始化、计划的步长、双重示例、基于频谱的输入变换和几种集成策略。在 ImageNet 数据集上的大量实验验证了我们提出的技巧的高效性，并表明结合它们可以进一步增强对抗性传递性。我们的工作提供了实用的见解和技术，以增强对抗性传递性，并通过简单的调整指导提高对现实世界应用的攻击性能。

Jan, 2024

通过输入多样性来提高对抗性样本的可迁移性

利用多样化的输入模式来生成对抗样本，实现更好的对抗样本传递性，评估该方法在不同防御方法下的对抗成功率，并在 NIPS 2017 对抗比赛中获得了 73.0% 的平均成功率，从而提高了对抗攻击的基准线。

Mar, 2018