梯度掩码导致 CLEVER 高估对抗扰动的大小

Apr, 2018

梯度掩码导致 CLEVER 高估对抗扰动的大小

Gradient Masking Causes CLEVER to Overestimate Adversarial Perturbation Size

Ian Goodfellow

TL;DR本报告提出的 CLEVER 评分方法虽可估计出较低的对抗扰动阈值，但其受攻击方法的常见问题 —— 梯度掩盖 —— 的影响而过高估计扰动大小，未能解决攻击方法所面临的关键问题。

Abstract

A key problem in research on adversarial examples is that vulnerability to adversarial examples is usually measured by running attack algorithms<

adversarial examples attack algorithms perturbation clever gradient masking

发现论文，激发创造

利用逐步放大的随机梯度自由对抗攻击揭示了使用成熟攻击方法对稳健性的高估

对 ReLu 神经网络进行梯度自由攻击可以提供对抗性攻击下的网络鲁棒性评估，相比于之前的最先进方法，可以更紧确地估计网络鲁棒性

Mar, 2019

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

朝着对大幅扰动有抵抗力的深度学习模型

本文提出了一种网络权重初始化的方法，使其能够在更高噪声水平下学习，同时评估了在 MNIST 和 CIFAR10 数据集上增强对抗噪声对学习范围的影响，并通过对简单多维伯努利分布的理论结果进行研究，提出了一些关于 MNIST 数据集可行扰动范围的见解。

Mar, 2020

隐匿的梯度给了虚假的安全感：绕过对抗样本的防御

本文发现了一种称为 “混淆梯度” 的梯度掩码现象，该现象导致了对抗性攻击防御中的安全虚假感。通过针对这种现象的攻击技术研究，我们发现依赖于混淆梯度的防御可以被规避，因此需要更可靠的防御机制。

Feb, 2018

重新审视图像分类器训练以提高对抗补丁的认证鲁棒防御

该论文提出了一种通过最坏情况遮盖来提高模型不变性的方法 Greedy Cutout，相比于 PatchCleanser 中的 Random Cutout 增强方式，通过使用 Greedy Cutout 可以提高模型的认证鲁棒性。

Jun, 2023

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

精准、可靠、快速的鲁棒性评估

在神经网络的研究中，我们开发了一种新的梯度基础的对抗攻击方法，相较于已有的攻击方法，它更可靠，可以适应广泛的对抗标准，并且在提高效率的同时，不需要进行超参数调整，这将对神经网络的鲁棒性评估做出有益的贡献。

Jul, 2019

评估语义分割模型的对抗鲁棒性

该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性，并发现只有使用对抗样本进行训练才能获得鲁棒性，并分析了鲁棒性和准确性之间的权衡。

Jun, 2023

文本对抗攻击的上下文扰动

本文提出了一种基于上下文的 CLARE 模型，通过掩码插值过程生成流畅和语法正确的对抗样例，旨在发现自然语言处理模型的脆弱性，并通过三个上下文化扰动方法 —— 替换、插入、合并，产生不同长度的文本以提高攻击效率，并通过实验和人类评估证明了相对于基线模型，CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。

Sep, 2020