通过内省检测神经网络中的对抗样本和其他分类错误

ICMLMay, 2019

通过内省检测神经网络中的对抗样本和其他分类错误

Detecting Adversarial Examples and Other Misclassifications in Neural Networks by Introspection

Jonathan Aigrain, Marcin Detyniecki

TL;DR通过在预训练的神经网络的 logits 上再训练一个简单的 3 层神经网络，我们能够竞争性地检测出分类错误，从而解决现代神经网络无法提供可靠置信值的问题（也就是所谓的敌对样本问题和过度自信问题）的局限性。

Abstract

Despite having excellent performances for a wide variety of tasks, modern neural networks are unable to provide a reliable confidence value allowing to detect →

neural networks confidence value misclassifications adversarial example introspection

发现论文，激发创造

对抗样本的有趣特性

论文研究了神经网络模型的不确定性对于对抗样本的产生具有决定性作用，与体系结构、数据集和训练协议无关，表现为对抗误差具有与对抗扰动大小呈幂律的普适性，通过减小预测熵来提高对抗鲁棒性，在 CIFAR10 上使用神经架构搜索找到更鲁棒的架构。

Nov, 2017

解释和利用对抗样本

机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响，该现象不同于过拟合和非线性，但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。

Dec, 2014

探索健壮神经网络的误分类以增强对抗攻击

针对当前神经网络抵御对抗攻击的能力较弱的情况，提出了一种新的损失函数，从而提高了 19 种不同状态下的神经网络的抗攻击能力。同时发现目前不良攻击行为只能诱发少量不同类别的误分类，过于自信或不自信都会影响对模型鲁棒性的准确评估。

May, 2021

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

理解图像分类决策的对抗解释及改进神经网络的鲁棒性

本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击，并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中，本文设计的神经网络的准确性和鲁棒性面积（ARA）为 0.0053，是之前最先进技术的 2.4 倍，拓展了理解神经网络决策的重要方向。

Jun, 2019

ConvNets 和 ImageNet 超越准确性：理解错误和揭示偏见

本研究从人类参与和解释性的角度出发，探究了 ConvNets 和 Imagenet 在图像分类上的性能、鲁棒性和偏差问题，并以实验和工具提出了解释作为改善模型可靠性和理解性的有效手段。

Nov, 2017

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

赔率是否真的奇怪？绕过对抗性样本的统计检测

本文提出了基于统计学检测方法的分类器适应方法，提高了检测性能；并且提出了 Logit Mimicry Attack 方法生成对抗样本，通过该方法可以避开统计学检测和分类器方法；最后，通过该文献，可以证明对抗样本的检测，统计学检测和分类器检测都不具备鲁棒性。

Jul, 2019

检测来自伪像的对抗性样本

本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法，可以实现对于对抗样本的检测，具有很好的泛化性能，并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。

Mar, 2017

通过输入转换、防御扰动和投票检测对抗性样本

本文探讨在可对抗的变形情况下检测对抗攻击，并提出一种名为 defense perturbation 的新方法来检测具有相同输入变换与可靠的对抗攻击。同时介绍了多网络对抗例子，这种对抗例子可以同时欺骗多个网络。

Jan, 2021