对抗训练可能是把双刃剑

ICLRJul, 2021

Adversarial training may be a double-edged sword

Ali Rahmati, Seyed-Mohsen Moosavi-Dezfooli, Huaiyu Dai

TL;DR本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性，以及在黑盒攻击下的细微差别，并定义了鲁棒性增益的度量指标来衡量其效果。研究表明，尽管对抗训练是提高白盒场景下的鲁棒性的有效方法，但对于更现实的基于决策的黑盒攻击，则可能无法提供如此良好的鲁棒性增益。此外，即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。

Abstract

adversarial training has been shown as an effective approach to improve the robustness of image classifiers against white-box attacks. How

adversarial training robustness image classifiers black-box attacks neural networks

发现论文，激发创造

灰盒对抗训练

本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Aug, 2018

对抗训练在对抗鲁棒性方面的最新进展

该研究论文系统地回顾了针对深度学习模型的对抗训练在对抗鲁棒性方面的最新进展，并从三个视角讨论了对抗训练中的泛化问题，同时指出了尚未完全解决的挑战并提出潜在的未来研究方向。

Feb, 2021

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

计算机视觉中对抗攻击综述

深度神经网络被广泛用于各种下游任务，尤其是自动驾驶等安全关键场景，但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击，前者攻击者知道模型的参数和梯度，后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有目标攻击，黑盒设置是我们实践中会遇到的情况。

Aug, 2023

集成对抗训练：攻击和防御

该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

May, 2017

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

风格化对抗防御

利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动，将其应用于多任务目标并进行深度监督，提取多尺度特征知识以创建最大分离对手，随后提出最大间隔对抗训练方法，最小化源图像与其对手之间的距离，并最大化对手和目标图像之间的距离，证明与最先进的防御相比，我们提出的对抗训练方法表现出强大的鲁棒性，对自然出现的损坏和数据分布变化具有良好的泛化能力，并保留了模型在干净样本上的准确性。

Jul, 2020

计算机视觉模型的黑盒对抗攻击综述

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

通过限制深度神经网络的隐藏空间来进行对抗性防御

针对深度神经网络易受对抗性攻击的问题，本文提出了一种基于特征重构的防御方法，具体来说，通过将每个类别的特征强制限制在一个凸多面体内，使得网络学习到的决策区域更加独特和远离各个类别的边界，提高了网络的鲁棒性，同时在干净图像的分类性能上不会退化。

Apr, 2019

使用对抗网络进行鲁棒性深度学习的直接方法

该论文提出了一种基于生成对抗网络 (GAN) 框架下的新防御机制来对抗黑盒攻击，在经验上表现良好并能与利用梯度下降的集成对抗训练和对抗训练等最先进的方法媲美。

May, 2019