朝着对抗性样本的稳健检测

Jun, 2017

Towards Robust Detection of Adversarial Examples

Tianyu Pang, Chao Du, Yinpeng Dong, Jun Zhu

TL;DR本论文提出一种新颖的训练方法和阈值测试策略，以实现对恶意制造的对抗样本的鲁棒检测。在训练中，我们提出了最小化反交叉熵（RCE）的方法，以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中，我们提出了使用阈值策略作为检测器，以过滤出对抗样本，以实现可靠预测，我们的方法使用标准算法简单实现，与常见的交叉熵最小化相比，几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法，并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。

Abstract

Although the recent progress is substantial, deep learning methods can be vulnerable to the maliciously generated adversarial examples. In this paper, we present a novel training procedure and a thresholding test

deep learning adversarial examples reverse cross-entropy thresholding strategy robust predictions

发现论文，激发创造

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

训练集成来检测对抗样本

提出了一种新的集成方法，用于检测和分类最新攻击算法生成的对抗样本，包括 DeepFool 和 C&W，该方法通过训练集成成员对随机良性样本的分类误差较低同时在训练分布之外的样本上最小化一致性来工作。结果表明该方法能够抵抗白盒和黑盒攻击，并且在 MNIST 数据集上表现良好。

Dec, 2017

MetaAdvDet：面向演化型对抗攻击的鲁棒性检测

通过元学习方法构建的双网络框架，旨在解决深度神经网络在遇到少量样本的新对抗攻击时检测精确度低的问题。在 CIFAR-10，MNIST 和 Fashion-MNIST 三个数据集上实验表明，该方法相比于传统的对抗攻击检测方法具有更高的有效性。

Aug, 2019

深度神经网络抵抗对抗样本攻击

该研究提出了一种基于深度神经网络的拒绝机制来检测恶意样本，可以有效地防止对抗性攻击，并且具有更高的效率和普适性。

Oct, 2019

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

风格化对抗防御

利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动，将其应用于多任务目标并进行深度监督，提取多尺度特征知识以创建最大分离对手，随后提出最大间隔对抗训练方法，最小化源图像与其对手之间的距离，并最大化对手和目标图像之间的距离，证明与最先进的防御相比，我们提出的对抗训练方法表现出强大的鲁棒性，对自然出现的损坏和数据分布变化具有良好的泛化能力，并保留了模型在干净样本上的准确性。

Jul, 2020

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

深度防御：用改进的对抗训练训练 DNNs 提高其鲁棒性

本文提出了一种名为 “deep defense” 的训练方法来解决深度神经网络易受到对抗样本攻击的问题，通过将对抗扰动的正则化器与分类目标相结合，得到的模型能够直接且准确地学习抵御潜在的攻击，实验证明该方法在不同数据集上对比对抗 / Parseval 正则化方法有更好的效果。

Feb, 2018

建立稳健模型的简单结构

通过添加一个用于协作训练的对抗样本检测网络和设计一种新的数据采样策略，我们建议了一个简单的架构来构建具有一定鲁棒性的模型，该模型能够适应许多不同的对抗攻击，并针对 Cifar10 dataset 的实验表明这种设计对模型的鲁棒性具有积极影响。

Apr, 2022

通过引导互补熵来提高对抗性鲁棒性

我们提出了一种称为 Guided Complement Entropy（GCE）的新型训练范式，它能够在不使用额外过程的情况下，提高模型的敌对鲁棒性并取得更好的表现效果，我们通过实验证明，该方法优于常用的交叉熵训练目标，并且能够与不同的对抗训练方法一同使用，获得更好的模型鲁棒性。

Mar, 2019