见者非必信者：无害扰动的空间

Feb, 2024

Seeing is not always believing: The Space of Harmless Perturbations

Lu Chen, Shaofeng Li, Benhao Huang, Fan Yang, Zheng Li...

TL;DR在深度神经网络的背景下，我们揭示了一种无害扰动空间的存在，即使应用于图像的扰动的幅度不同，也不会对原始图像的网络输出产生任何影响。具体而言，在网络中的任何线性层中，其中输入维度 $n$ 大于输出维度 $m$ 时，我们证明了连续的无害扰动子空间的存在，其维度为 $(n-m)$。受此启发，我们求解了一系列一致影响网络输出的通用扰动，无论其幅度如何。借助这些理论发现，我们探索了在保护隐私的数据使用方面无害扰动的应用。我们的工作揭示了 DNNs 和人类感知之间的差异，人类所捕捉到的重要扰动可能不会影响 DNNs 的识别。因此，我们利用这一差距设计了一种对人类无意义，但对 DNNs 具有可识别特征的无害扰动类型。

Abstract

In the context of deep neural networks, we expose the existence of a harmless perturbation space, where perturbations leave the network output entirely unaltered. Perturbations within this harmless perturbation space

deep neural networks harmless perturbation space linear layer privacy-preserving data usage human perception

发现论文，激发创造

通用对抗扰动

本文研究了深度神经网络分类器，发现存在普适的微小扰动对所有图像都造成高概率的错误分类，并提出了计算普适扰动的系统算法，证明现有神经网络非常容易受到该扰动攻击，从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动，对多个神经网络进行了实证分析并发现它们具有良好的通用性，揭示了分类器高维决策边界之间的重要几何相关性，并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。

Oct, 2016

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

微扰神经网络

本文介绍了一种名为扰动层的替代卷积层的模块，通过实验证明这种扰动层可以有效地替代传统的卷积层，在多个视觉数据集上与标准 CNNs 性能相当，且拥有更少的参数。

Jun, 2018

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

通过特征层次扰动来提高黑盒攻击的标准和严格可转移性

该研究讨论在深度神经网络（DNN）图像分类器范围内的黑盒传递目标对抗攻击威胁模型，提出的方法通过扰动特征层级上的表示来模仿其他类别，使用灵活的攻击框架显示出 ImageNet DNNs 之间的最新目标传输性能，并说明其优越性，相比于其他黑盒传输方法，成功率提高了 10 倍，该方法胜过现有的攻击策略，并在有限的黑盒模型查询情况下同时展示了该方法的扩展性。

Apr, 2020

学习对抗性扰动的理论理解

理论框架揭示了扰动中包含了足够的类别特征以实现泛化，并且学习扰动的决策边界与标准样本的决策边界在大部分区域上相一致。

Feb, 2024

深度神经网络的敏感性分析

本文提出了一种新的扰动流形及其关联的影响度量方法，通过该方法可以量化各种扰动对 DNN 分类器的影响，主要应用于四个模型构建任务：检测异常值、分析模型体系结构的敏感性、比较训练和测试集之间的网络敏感性以及定位易受攻击的区域。实验证明，该方法在 CIFAR10 和 MNIST 数据集上的 ResNet50 和 DenseNet121 模型中具有较好的性能。

Jan, 2019

调查对抗扰动中隐藏的可识别人类特征

研究表明，神经网络在各种机器学习任务中表现出色，但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别，并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征，论文证明了这些特征能够破坏目标模型，并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。

Sep, 2023

对抗通用扰动防御

本文提出了一个 Perturbation Rectifying Network (PRN) 框架，通过学习实际和合成的图像通用扰动，和在 PRN 的输入和输出差异的离散余弦变换上独立训练的检测器，从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。

Nov, 2017

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017