可证明的最小扭曲对抗样本

Sep, 2017

Provably Minimally-Distorted Adversarial Examples

Nicholas Carlini, Guy Katz, Clark Barrett, David L. Dill

TL;DR利用形式验证技术构建对抗样本，证明这些样本是最小扭曲的，从而增加了对抗性训练的鲁棒性。

Abstract

The ability to deploy neural networks in real-world, safety-critical systems is severely limited by the presence of adversarial examples: slightly perturbed inputs that are misclassified by the network. In recent

neural networks adversarial examples robustness formal verification techniques adversarial retraining

发现论文，激发创造

面向神经网络的不可察觉且强韧对抗样本攻击

该研究提出了一种新的对抗样本攻击方法，考虑到人类感知系统并最大化制作的对抗样本的噪声容忍度，实验结果证明了该技术的有效性。

Jan, 2018

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

具有可证明估计误差的深度神经网络最小对抗扰动

本文提出了两种轻量级策略来找到最小的对抗扰动，区别于现有技术，该方法允许对近似距离相对于理论距离进行误差估计理论，得到了实验结果的支撑，表明该方法适用于靠近分类边界的样本，具有抗击任何对抗性攻击的证明鲁棒性保证。

Jan, 2022

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

加强对抗性容错性评估的置信度

该研究提出了一种测试方法以识别弱攻击和防御评估，为了增强透明和信心，将攻击单元测试作为未来强度评估的重要组成部分。

Jun, 2022

使用对抗网络进行鲁棒性深度学习的直接方法

该论文提出了一种基于生成对抗网络 (GAN) 框架下的新防御机制来对抗黑盒攻击，在经验上表现良好并能与利用梯度下降的集成对抗训练和对抗训练等最先进的方法媲美。

May, 2019

深度学习中的对抗性示例：攻击与防御

本文研究深度学习中的对抗样本问题，总结了生成对抗样本的方法，提出了对抗样本的应用分类，并探讨了对抗样本的攻击和防御策略以及面临的挑战和潜在解决方案。

Dec, 2017

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

通过输入转换、防御扰动和投票检测对抗性样本

本文探讨在可对抗的变形情况下检测对抗攻击，并提出一种名为 defense perturbation 的新方法来检测具有相同输入变换与可靠的对抗攻击。同时介绍了多网络对抗例子，这种对抗例子可以同时欺骗多个网络。

Jan, 2021