对抗攻击归因：发现对抗机器学习攻击中的可归因信号

AAAIJan, 2021

对抗攻击归因：发现对抗机器学习攻击中的可归因信号

Adversarial Attack Attribution: Discovering Attributable Signals in Adversarial ML Attacks

Marissa Dotter, Sherry Xie, Keith Manville, Josh Harguess, Colin Busho...

TL;DR通过简单的监督式学习实验平台，发现在 CIFAR-10 和 MNIST 数据集中，可以区分使用不同攻击算法、模型和超参数生成的对抗攻击，并介绍了对抗攻击归因的概念。

Abstract

machine learning (ML) models are known to be vulnerable to adversarial inputs and researchers have demonstrated that even production systems, such as self-driving cars and ML-as-a-service offerings, are susceptib

machine learning adversarial inputs attribution supervised learning attack algorithms

发现论文，激发创造

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

通过多任务学习实现可扩展的对抗攻击归因

本研究提出了一个名为 MTAA 的多任务学习框架，可以同时识别攻击算法、受害模型和超参数三个签名，并使用不确定性加权损失来调整权重，从而提高该框架对于误报的处理能力。

Feb, 2023

关于（统计）检测对抗样本的研究

本文研究如何检测机器学习中的对抗性样本，提出使用统计检验和模型增强的方法来识别对抗性样本，并参照多个数据集和对抗样本制作方法进行实验，结果表明统计学特性对于检测对抗性样本至关重要。

Feb, 2017

使用特征归因检测对抗样本的 ML-LOO 算法

本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法，并在多项实验中实现优异性能，尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。

Jun, 2019

分析对可解释机器学习的敌对样本的影响

本文分析对文本分类问题中的解释模型造成的对抗攻击的影响，包括开发一个基于机器学习的分类模型，引入对抗性扰动来理解分类性能，并在攻击之前和之后分析和解释模型的可解释性。

Jul, 2023

围攻电网事件原因分析：一种对抗性机器学习方法

本文探讨了针对数据驱动应用中出现的恶意攻击对卷积神经网络（CNN）事件原因分析框架的影响，并通过实时数字模拟器（RTDS）生成的数据分析了不同攻击类型和数据访问级别下攻击的有效性和防御机制。

Nov, 2019

攻击遇上可解释性：基于特征的对抗样本检测

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

工控系统中机器学习网络安全防御的对抗攻击

该研究探讨了如何使用对抗性学习通过生成基于 Jacobian 的显著性图攻击的对抗性样本以及探索分类行为，从而攻击监督模型。该分析还包括如何使用对抗性训练来支持监督模型的鲁棒性。随着对抗性样本的出现，两个广泛使用的分类器 —— 随机森林和 J48 的分类性能分别降低了 16 和 20 个百分点，但训练后它们的性能得到提高，证明了它们对这种攻击的鲁棒性。

Apr, 2020

解释深度学习对抗恶意软件二进制文件的漏洞

通过解释性机器学习方法，这项研究发现一个新的攻击算法可以仅更改文件头中的少数字节来生成恶意软件二进制文件，并提出了一个解决方案来解释深度学习算法中易受对抗性示例影响的问题。

Jan, 2019

现代机器学习中的对抗样本：一次回顾

本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨，并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。

Nov, 2019