使用预 - Softmax 分数的归因方法的一个漏洞

Jul, 2023

使用预 - Softmax 分数的归因方法的一个漏洞

A Vulnerability of Attribution Methods Using Pre-Softmax Scores

Miguel Lerma, Mirtha Lucas

TL;DR讨论了涉及一类用于给卷积神经网络输出提供解释的属性方法的漏洞，这类网络对对抗攻击是脆弱的，其中输入的微小扰动可能会改变模型的输出，而本文关注的是，在不改变模型输出的情况下，模型的微小修改可能对属性方法产生的影响。

Abstract

We discuss a vulnerability involving a category of attribution methods used to provide explanations for the outputs of convolutional neural netwo

vulnerability attribution methods convolutional neural networks adversarial attacks model modifications

发现论文，激发创造

基于梯度的归因方法中，Pre 或 Post-Softmax 得分哪个更好？

本文研究了基于梯度的神经网络归因方法在分类器中的应用，讨论了使用预 softmax 分数与后 softmax 分数的梯度之间的实际差异及其各自的优缺点。

Jun, 2023

模型归因的鲁棒性再思考

机器学习模型的可靠性和可信度要求其决策具有可解释性，尤其在安全关键应用中，模型预测和解释（作为特征归因）对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的，并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因：首先，现有的鲁棒性度量指标（例如，top-k 交集）对于合理的本地归因偏移进行了过度惩罚，因此使得随机扰动呈现出强攻击的效果；其次，即使图像中存在多个重要部分，归因可以集中在一个小区域中。为了纠正这一点，我们提出了一些简单的方法来加强现有的度量指标和归因方法，这些方法将像素的局部性纳入鲁棒性度量指标中，并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用，我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因，然而，在较大的数据集中，这种优势消失了。代码可在此 https URL 获得。

Dec, 2023

时间关注：使用时间序列归因方法的全面基准测试

本文重点研究时间序列分析，对比了几种最先进的卷积分类器解释方法，发现扰动法是较优选项，但也强调选择最适合的归因方法与所需用例的选择密切相关。

Feb, 2022

对抗攻击归因：发现对抗机器学习攻击中的可归因信号

通过简单的监督式学习实验平台，发现在 CIFAR-10 和 MNIST 数据集中，可以区分使用不同攻击算法、模型和超参数生成的对抗攻击，并介绍了对抗攻击归因的概念。

Jan, 2021

使用特征归因检测对抗样本的 ML-LOO 算法

本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法，并在多项实验中实现优异性能，尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。

Jun, 2019

有这样的朋友，还要什么敌人？

本文通过研究表明，图像分类网络对于对抗性攻击的脆弱性与其性能之间是一种互相联系的关系，因为网络中最容易受攻击的输入图像方向也是它们用于实现其分类性能的方向。此外，这种关系对于构建既精确又具有抵抗对抗攻击能力的神经网络具有深远的影响。

Jul, 2018

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

测试卷积神经网络在基于 MRI 的阿尔茨海默病分类中的归因方法的稳健性

研究了四种归因方法在阿尔茨海默病分类任务中的有效性，并发现某些广泛使用的归因方法产生高度不一致的结果。

Sep, 2019

针对深度模型的目标无关攻击：利用迁移学习的安全漏洞

该论文研究了在迁移学习中使用公共预训练模型会存在安全漏洞的问题，因为攻击者可以使用基于暴力破解的方法，通过已知的预训练模型，生成能够触发目标分类器的实例，从而破解安全防护措施。此外，论文也提到了 Softmax 层的基本安全漏洞。

Apr, 2019

准确性和鲁棒性是否相关？

通过利用深度卷积神经网络生成对抗性样本，然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异，最后在跨模型对抗迁移上进行了大规模实验，研究结果表明对抗性样本在相似的网络拓扑间是可传递的，并且更好的机器学习模型更不容易受到对抗性样本的攻击。

Oct, 2016