利用梯度对抗梯度：动态防御对抗性攻击

May, 2021

利用梯度对抗梯度：动态防御对抗性攻击

Fighting Gradients with Gradients: Dynamic Defenses against Adversarial Attacks

Dequan Wang, An Ju, Evan Shelhamer, David Wagner, Trevor Darrell

TL;DR本研究提出了一种动态防御方式-dent, 可在测试时优化模型的防御能力以应对各种对抗性攻击，并显著提高模型鲁棒性，尤其是在 CIFAR-10 上对抗 AutoAttack 的表现提高了 20+ 点的绝对值。

Abstract

adversarial attacks optimize against models to defeat defenses. Existing defenses are static, and stay the same once trained, even while attacks change. We argue that models should fight back, and optimize their defenses against attacks at test time. We propose →

发现论文，激发创造

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

基于数据依赖激活函数和总变差最小化的对抗防御

采用插值函数作为输出激活函数，能够显著提高深度神经网络在对抗攻击下的鲁棒性，通过结合总变分最小化技术和训练数据增强，我们将ResNet20的对抗训练提高了约23％的鲁棒度，并通过对特征空间的几何形态进行分析提供了相应的直观解释。

Sep, 2018

关于对抗性样本防御的自适应攻击

本文探讨了13种已在相关会议上发表的对抗性防御方法对抗自适应攻击方法的实验结果，发现这些方法在实际运用中并不完善，因此提出了一种可行的自适应攻击方法，希望能够为研究更为健壮的防御模型提供指导。

Feb, 2020

对抗性样本是否平等？一种可学习的加权极小最大风险方法，用于对非均匀攻击进行鲁棒性保护

本文提出一种基于加权最小化风险优化方法的防御策略，通过优先考虑更易受攻击的样本，可以在不均衡攻击下实现防御，并通过实验证明了该模型在非均衡攻击下取得了明显的改进，而在均衡攻击下平均正确率并未显著下降。

Oct, 2020

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

使用正交投影梯度下降规避对抗性样本检测防御

本文介绍了一种基于 Orthogonal Projected Gradient Descent 攻击技术的方法，通过正交化梯度来生成对抗样本，以便在同时满足误分类和被检测为非对抗性之间达到更好的平衡，成功地躲避了四种先进的对抗性检测方法，降低其准确度为 0%，而维持着 0% 的检测率。

Jun, 2021

评估自适应测试时间防御的对抗鲁棒性

我们对自适应防御策略进行了分类并评估了最新的代表性方法，结果表明在图像分类中这些自适应防御策略没有明显的提高静态防御的水平，同时增加了推理计算。然而，我们仍相信自适应的防御策略是一个有前途的研究方向，并提出了具体的研究建议和评估步骤扩展了Carlini等人的清单。

Feb, 2022

机器学习网络中的对抗攻击与防御: 当代综述

本文综述了近期深度学习中对于对抗攻击和防御技术的研究进展，聚焦于基于深度神经网络的分类模型，并进行了对攻击和防御方法的分类和评价，其中重点介绍了正则化方法在提高模型的鲁棒性方面的应用。此外，还探索了新型攻击方式，如基于搜索、决策、降维和物理世界攻击，并提出了对于未来研究的建议。

Mar, 2023

PatchCURE：提高对抗性贴纸防御的可证明鲁棒性、模型效用和计算效率

PatchCURE是一个能够平衡证明鲁棒性、模型效用和计算效率的防御框架，能够提供一系列不同效率级别下的最强防御性能和最高效的推理效率。

Oct, 2023

攻击基准：对于对抗性样本的基于梯度的攻击评估

我们提出了AttackBench作为第一个用于评估对抗样本优化的攻击的公平比较框架，通过分类梯度攻击、定义优化度量标准和限制查询次数等方式评估攻击的效果和效率，并通过对超过100种攻击实现在CIFAR-10和ImageNet模型上的800多种不同配置的实证分析，发现只有很少的攻击能够超越所有其他竞争方法，同时揭示了阻碍许多攻击找到更好解决方案或运行的几个实现问题，我们将AttackBench作为一个公开可用的基准，并致力于不断更新以包含和评估新的梯度攻击方法。

Apr, 2024