基于梯度的对抗性样本检测与异常检测

ICMLJun, 2022

基于梯度的对抗性样本检测与异常检测

Gradient-Based Adversarial and Out-of-Distribution Detection

Jinsol Lee, Mohit Prabhushankar, Ghassan AlRegib

TL;DR通过使用梯度检测对抗性和分布外样本，引入混淆标签来提高神经网络的有效表达，使模型不依赖真实标签来生成梯度。这种基于梯度的方法能够捕捉输入中的异常，击败先进的方法。

Abstract

We propose to utilize gradients for detecting adversarial and out-of-distribution samples. We introduce confounding labels -- labels that differ from normal labels seen during training -- in gradient generation t

adversarial detection out-of-distribution detection neural networks gradients confounding labels

发现论文，激发创造

梯度正则化的离群样本检测

利用损失函数的梯度信息进行训练，实现神经网络在离分布数据上的检测，并通过能量采样方法提高模型性能。

Apr, 2024

一种简单的统一框架用于检测样本的离群点和对抗攻击

本文提出了一种简单而有效的方法，可用于检测任何异常样本，适用于任何预训练的 softmax 神经分类器，在高鲁棒性方面表现优越，同时在检测离群样本和对抗样本方面都取得了最先进的性能，在分类增量学习中有着更广泛的应用。

Jul, 2018

神经网络的梯度对抗训练

本文介绍一种深度学习的补充框架：梯度对抗性训练，在此框架下，作者采用辅助网络来分类并调整梯度张量以实现统一性，进而增强了对抗攻击的鲁棒性，更好地在知识蒸馏及多任务学习中表现，并充分展示了梯度信息在训练过程中的重要性。

Jun, 2018

分布式对抗网络

提出基于样本而非单一样本点作为基础鉴别单位的对抗训练框架，并介绍了两种可操作和预测样本的分布式对手，通过实验结果表明，与传统的细节预测鉴别器训练模型相比，使用我们的分布式对手训练的生成器更加稳定且极少出现模式崩溃，将该框架应用于领域适应也取得了显着的提高。

Jun, 2017

深度特征概率建模用于外样本和对抗性检测

本文提出了一种基于深度神经网络的参数概率分布模型来检测分布外和对抗性样本的方法，并探讨了高精度建模特征分布所带来的实际增益。

Sep, 2019

AdvCheck: 通过本地梯度检查特征对抗性示例

介绍一种新的针对深度神经网络攻击问题的检测方法 AdvCheck，其利用 local gradient 对对抗样本和误分类自然输入进行精确区分，能够获得比现有技术更高的检测率和更低的计算成本。

Mar, 2023

分布式训练中标签的揭示与保护

本文提出了一种从模型最后一层的梯度和 id 映射中发现训练样本标签的方法，该方法适用于多个领域的各种模型架构，并在图像分类和自动语音识别两个领域的模型训练中展示了其有效性，同时还发现梯度量化和稀疏化可以显著降低攻击的成功率。

Oct, 2021

低维度梯度有助于外部分布检测

通过对梯度信息进行线性降维，结合现有的检测评分函数，我们的方法在各种检测任务中展示了卓越的性能，例如在 ImageNet 基准测试中，我们的方法相较于当前最先进方法，在 95% 召回率时，假阳性率平均减少了 11.15%。

Oct, 2023

探测野外分布移变的梯度重要性

本文提出了一种名为 GradNorm 的基于梯度空间的方法，通过利用从梯度空间提取的信息来检测异常数据，可以降低平均误警率（FPR95）高达 16.33％，相对于现有最佳方法效果更好。

Oct, 2021

基于图形方法和特定分布距离的对抗攻击检测

通过对神经网络体系结构的图形研究，引入了一种新的从图形角度检测和解释对抗攻击的方法，并利用特定的度量来预测和解释对抗攻击。研究结果表明，基于图形的方法有助于研究对抗攻击的内部工作方式。

May, 2023