本文研究了基于梯度的神经网络归因方法在分类器中的应用,讨论了使用预 softmax 分数与后 softmax 分数的梯度之间的实际差异及其各自的优缺点。
Jun, 2023
机器学习模型的可靠性和可信度要求其决策具有可解释性,尤其在安全关键应用中,模型预测和解释(作为特征归因)对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的,并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因:首先,现有的鲁棒性度量指标(例如,top-k 交集)对于合理的本地归因偏移进行了过度惩罚,因此使得随机扰动呈现出强攻击的效果;其次,即使图像中存在多个重要部分,归因可以集中在一个小区域中。为了纠正这一点,我们提出了一些简单的方法来加强现有的度量指标和归因方法,这些方法将像素的局部性纳入鲁棒性度量指标中,并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用,我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因,然而,在较大的数据集中,这种优势消失了。代码可在此 https URL 获得。
Dec, 2023
本文重点研究时间序列分析,对比了几种最先进的卷积分类器解释方法,发现扰动法是较优选项,但也强调选择最适合的归因方法与所需用例的选择密切相关。
Feb, 2022
通过简单的监督式学习实验平台,发现在 CIFAR-10 和 MNIST 数据集中,可以区分使用不同攻击算法、模型和超参数生成的对抗攻击,并介绍了对抗攻击归因的概念。
Jan, 2021
本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法,并在多项实验中实现优异性能,尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。
Jun, 2019
本文通过研究表明,图像分类网络对于对抗性攻击的脆弱性与其性能之间是一种互相联系的关系,因为网络中最容易受攻击的输入图像方向也是它们用于实现其分类性能的方向。此外,这种关系对于构建既精确又具有抵抗对抗攻击能力的神经网络具有深远的影响。
Jul, 2018
使用涉及一系列方法来解释机器学习模型的决策,研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。
Mar, 2019
研究了四种归因方法在阿尔茨海默病分类任务中的有效性,并发现某些广泛使用的归因方法产生高度不一致的结果。
Sep, 2019
该论文研究了在迁移学习中使用公共预训练模型会存在安全漏洞的问题,因为攻击者可以使用基于暴力破解的方法,通过已知的预训练模型,生成能够触发目标分类器的实例,从而破解安全防护措施。此外,论文也提到了 Softmax 层的基本安全漏洞。
Apr, 2019
通过利用深度卷积神经网络生成对抗性样本,然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异,最后在跨模型对抗迁移上进行了大规模实验,研究结果表明对抗性样本在相似的网络拓扑间是可传递的,并且更好的机器学习模型更不容易受到对抗性样本的攻击。
Oct, 2016