检测对抗样本的难度与分类相近

ICMLJul, 2021

Detecting Adversarial Examples Is (Nearly) As Hard As Classifying Them

Florian Tramèr

TL;DR本研究研究如何使分类器对抗性示例具有良好的鲁棒性，但事实上许多防御措施都更加致力于检测受到干扰的输入，作者针对这一目标展开了研究，他们证明了在检测与分类对抗性示例这一问题上存在的一般性困难约束，并阐明了这一结论的重要性和应用前景。

Abstract

Making classifiers robust to adversarial examples is hard. Thus, many defenses tackle the seemingly easier task of detecting perturbed inputs. We show a barrier towards this goal. We prove a general hardness redu

adversarial examples robustness detection classification defenses

发现论文，激发创造

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

来自加密伪随机生成器的对抗性样本

我们在最近的工作中（Bubeck，Price，Razenshteyn, arXiv:1805.10204）指出，机器学习中的对抗性例子可能是由于问题固有的计算难度造成的。更确切地说，我们构建了一个二元分类任务，其中（i）存在强大的鲁棒分类器；但在（ii）统计查询模型中无法使用有效算法获得任何非平凡的准确性。在本文中，我们显着加强了（i）和（ii）：我们现在构建了一个任务，该任务允许（i'）最大限度地鲁棒的分类器（即它可以容忍与示例本身大小相当的扰动）；此外，我们证明了在（ii'）标准加密假设下学习此任务的计算困难性。

Nov, 2018

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

对抗性攻击如何干扰表面稳定准确的分类器

通过对高维度输入数据的实践系统进行观察，我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性，以及随机扰动的鲁棒性同时易受影响的基本特性，证实了这一现象。然而，令人惊讶的是，即使对于分类器决策边界与训练和测试数据之间只有很小的边距，也很难通过随机取样的扰动来检测到对抗性示例，因此需要更严格的对抗性训练。

Sep, 2023

来自计算限制的对抗性示例

高维度分类器为何易受到 “对抗性” 扰动？本文中将阐述这种现象可能不是由于信息论的限制，而是由于计算约束所引起的。同时探讨了分类任务的一种特殊情况，即在高维空间中对于对抗扰动较大的学习是容易的，但是具有计算难度的。这种例子带来了对于经典学习和鲁棒性学习之间的计算复杂度的差异的新见解，并建议这种现象可能是学习算法计算能力所限制的必然副产品。

May, 2018

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

对抗样本不容易被检测到：绕过十种检测方法

对 10 种检测对抗样本的最新提议进行比较后得出：它们都可以被利用新的损失函数打败，因此推测对抗样本的固有属性实际上是不存在的。作者提出了一些简单的评估准则来评估未来提出的防御措施。

May, 2017

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

欺骗检测器的对抗性样本

该研究证明了构建对 Faster RCNN 和 YOLO 这两种检测器具有迷惑性的对抗性例子的存在，这意味着对检测器的攻击不仅仅局限于分类器，并且可能会潜在威胁到智能车辆行驶的道路安全。

Dec, 2017

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021