对抗样本不是真实特征

Oct, 2023

Adversarial Examples Are Not Real Features

Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang

TL;DR对抗性示例的存在多年来一直是一个谜团，吸引了广泛的兴趣。本文从一个更大的背景视角重新审视这个理论，发现非鲁棒特征不像人类视为噪声特征那样有用，而具有良好转移性的鲁棒或自然特征更加有用。同时，我们还展示了经过鲁棒特征培训的编码器在 AutoAttack 下仍然是非鲁棒的，这表明仅凭鲁棒特征可能无法获得可靠的模型鲁棒性。

Abstract

The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract →

adversarial examples non-robust features learning paradigms supervised learning robustness

发现论文，激发创造

对抗性样本不是错误，它们是特征

本研究通过理论模型和实验数据，证明了对抗样本的普遍存在是由于数据分布中存在易碎且难以理解的非鲁棒特征的存在，进而解释了目前算法鲁棒性需要的人类专家知识与数据自身特性之间的不匹配性问题。

May, 2019

探索稳健特征以提升对抗性鲁棒性

通过分离鲁棒特征和领域特定特征，我们提出了一个鲁棒特征分离模型，以增强模型的对抗性鲁棒性。同时，训练出的领域鉴别器几乎完美地能够识别出干净图像和对抗性样本中的领域特定特征，从而无需额外的计算成本实现对抗性样本的检测。这样一来，我们可以为干净图像和对抗性样本指定不同的分类器，避免了干净图像准确率的降低。

Sep, 2023

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

通过信息瓶颈提取对抗样本中的鲁棒和非鲁棒特征

本文提出了一种通过 Information Bottleneck 明确地提炼出稳健特征和非稳健特征的方法，这些特征高度相关于对抗性预测并具有人类可感知的语义信息。此外，我们还提出了一种攻击机制来强化与模型预测直接相关的非稳健特征，并验证了其破坏模型鲁棒性的效果。

Apr, 2022

良性对抗攻击：欺骗模型以取得好结果

本文提出了利用对抗样本的善意攻击来探索攻击的本质并尝试解决机器学习中的对抗性问题。我们将对抗样本归因于模型和人类之间在使用非语义特征方面的差异，并针对此特性提出了三个方向的创新性应用：对抗图灵测试、拒绝恶意模型应用和对抗数据增强。

Jul, 2021

逆事实例子是否使对抗性训练变得复杂？

我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例：语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上，鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外，当直接在反事实例上进行评估时，鲁棒模型的性能非常差，因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明，非鲁棒和语义特征之间存在显著的重叠，与普遍的非鲁棒特征不可解释的假设相反。

Apr, 2024

高置信度预测对抗样本

本文研究深度学习中的对抗样本问题，认为过度自信的模型更容易受到对抗样本的攻击，通过将鲁棒性与非校准模型置信度结合，提供一种不需要数据增强的前进路径，探究对抗样本现象的成因并阐述了测试准确度与真实泛化性能之间的区别以及过拟合与随机效应的关系。

Feb, 2018

学习对抗性扰动的理论理解

理论框架揭示了扰动中包含了足够的类别特征以实现泛化，并且学习扰动的决策边界与标准样本的决策边界在大部分区域上相一致。

Feb, 2024

对抗鲁棒性的频域视角

针对深度学习系统中的对抗样本存在的挑战，提出了一种基于频率的对抗样本理解方法，并分析了在频率约束下训练鲁棒性模型的性质及其准确性与鲁棒性之间的权衡关系。

Oct, 2021

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021