集成边界的近似对抗检测

Nov, 2022

Adversarial Detection by Approximation of Ensemble Boundary

T. Windeatt

TL;DR本文提出了一种布尔函数的谱近似方法用于近似解决两种分类模式识别问题的深度神经网络的集合的决策边界。通过观察清洁和对抗图像之间的 Walsh 系数逼近差异，表明攻击的可转移性可用于检测。决策边界的近似也有助于理解深度神经网络的学习和可转移性属性。虽然本实验使用图像，但模拟两类集合决策边界的提议方法原则上可以应用于任何应用领域。

Abstract

A spectral approximation of a boolean function is proposed for approximating the decision boundary of an ensemble of →

spectral approximation boolean function deep neural networks adversarial attacks decision boundary

发现论文，激发创造

深度神经网络的决策边界研究：实证研究

深度学习神经网络中决策边界的演变及其对抗训练的影响等领域的问题研究。

Feb, 2020

检测来自伪像的对抗性样本

本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法，可以实现对于对抗样本的检测，具有很好的泛化性能，并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。

Mar, 2017

训练集成来检测对抗样本

提出了一种新的集成方法，用于检测和分类最新攻击算法生成的对抗样本，包括 DeepFool 和 C&W，该方法通过训练集成成员对随机良性样本的分类误差较低同时在训练分布之外的样本上最小化一致性来工作。结果表明该方法能够抵抗白盒和黑盒攻击，并且在 MNIST 数据集上表现良好。

Dec, 2017

CAAD 2018: 迭代性集成对抗攻击

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

神经网络逼近理想对抗攻击及对抗训练的收敛性研究

将对抗性攻击表示为可训练函数，使用神经网络模拟理想攻击过程，并降低对抗训练为攻击网络和防御网络之间的数学博弈，同时在此设置中获得了对抗性训练的收敛速率。

Jul, 2023

通过匹配预测分布进行对抗性检测和纠正

提出了一种新颖的对抗检测和修正方法，利用自动编码器和基于 KL 散度的自定义损失函数实现分类器的预测和重构实例之间的比较，该方法是无监督的、易于训练的，并不需要关于基础攻击的任何知识。在 MNIST 和 Fashion-MNIST 上，检测器几乎完全中和了像 Carlini-Wagner 或 SLIDE 这样的强大攻击，在攻击袭击者可以完全访问分类模型但无法访问防御情况下，对 CIFAR-10 仍然非常有效。我们展示了我们的方法仍然能够检测到对抗性例子，在攻击者对模型和防御都有充分了解的白盒攻击情况下并研究了攻击的鲁棒性。该方法非常灵活，还可以用于检测常见的数据损坏和扰动，从而对模型表现产生负面影响。我们在 CIFAR-10-C 数据集上介绍了这种能力。

Feb, 2020

猜测聪明：有偏采样用于高效黑盒对抗攻击

本文讨论了黑盒子设置下图像分类的对抗性样本问题，并针对 Boundary Attacks 提出了一种基于偏差抽样的新方法，该方法通过图像频率、区域掩码和代理梯度三种偏差来提高攻击效率，并在 ImageNet 数据集上进行了深入评估。最终表明，这些偏差的结合能够显著提高黑盒攻击的效率，并在对 Google Cloud Vision API、以及强防御模型的攻击中都表现出色。

Dec, 2018

通过异常模式检测识别音频对抗样本

本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题，提出了在激活空间中应用异常模式检测技术来检测对抗性样本，并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击，AUC 最高可达 0.98。

Feb, 2020

高效组合优化的简约黑盒对抗攻击

本文提出了一种离散替代方法来解决黑匣子攻击的问题，该方法可以在不需要估计导数的情况下有效地攻击神经网络，降低了之前所提出方法所需的查询次数。

May, 2019