通过扰动伪造检测对抗性数据

May, 2024

Detecting Adversarial Data via Perturbation Forgery

Qian Wang, Chen Li, Yuchen Luo, Hefei Ling, Ping Li...

TL;DR通过学习区分自然数据分布与对抗性噪声分布的覆盖关系，我们提出了扰动伪造方法，通过噪声分布扰动、稀疏掩模生成和伪对抗性数据生成来训练一个对所有类型的对抗性攻击具有强大泛化能力的检测器，同时不依赖任何特定模型。实验证明我们的方法具有出色的泛化能力。

Abstract

As a defense strategy against adversarial attacks, adversarial detection aims to identify and filter out adversarial data from the data fl

adversarial detection adversarial data generative models adversarial attacks generalization capabilities

发现论文，激发创造

仅使用真实人脸的自干扰检测对抗样本人脸

本文提出了一种生成伪造对抗人脸图像的方法，并用其来训练一个不需要攻击数据就可以检测对抗人脸图像的分类器，该方法适用于各种未知对抗攻击。

Apr, 2023

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

NAG: 对抗生成网络

本文提出了一种基于生成对抗网络的方法，通过优化骗过分类器的目标和增加多样性的目标训练生成器，从而模拟对抗性扰动的分布，生成多样的对抗性扰动，实现了在各种分类器上实现骗过率最大化，展示出了更好的通用性。

Dec, 2017

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

任何分类器的对抗性易受攻击性

本文研究了对抗扰动现象，并推导了任何分类函数的鲁棒性的基本上界，以及证明了存在跨不同分类器传递的具有小风险的对抗扰动。研究显示了生成模型的关键属性，如平滑性和潜在空间的维度，并提供了信息量大的鲁棒性基线。

Feb, 2018

一种新的对抗图像防御方法：将弱点转化为优势

通过梯度方法可以发现虚假的区域，该文认为这些区域不是弱点而是优势，提出了一种通过检测这些区域的方法来成功检测出对抗攻击的方法，在攻击者完全了解检测机制的情况下，实现了前所未有的准确性。

Oct, 2019

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023

人脸识别领域中卷积神经网络的对抗性攻击

本文以 Fast Gradient Sign Method 为基础，对面部图像数据集进行扰动，测试不同黑盒攻击算法的鲁棒性，并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明，所有像素攻击方法能使分类器置信度平均下降至 84％，且 81.6％的误分类率，但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。

Jan, 2020