基于极大雅可比值的显著性地图攻击
在这篇论文中,我们提出了一种更通用、在理论上更可靠的有针对性攻击方法,它通过最小化雅可比诱导的马氏距离 (JMA) 项来实现,考虑了将输入样本的潜在空间表示向某个方向移动所需的努力。所提出的算法通过利用沃尔夫对偶定理来求解这个最小化问题,将问题简化为求解一个非负最小二乘(NNLS)问题。实验证明所提出的攻击具有广泛的适用性,可在多种输出编码方案下发挥有效作用。值得注意的是,JMA 攻击也在多标签分类场景中表现出了良好的效果,能够改变复杂的具有 20 个标签的多标签分类情境中最多一半的标签,这是所有迄今为止提出的攻击方法所无法做到的。此外,JMA 攻击通常只需要很少的迭代次数,因此比现有的方法更高效。
Jan, 2024
本研究提出了一种新颖的针对文本分类模型的对抗攻击方法,即修改的基于词显著性的对抗攻击(MWSAA)。该技术利用词显著性的概念,有针对性地扰乱输入文本,旨在误导分类模型,同时保持语义连贯性。通过改进传统的对抗攻击方法,MWSAA 在逃避分类系统检测方面显著提高了效果。该方法首先通过显著性估计过程识别输入文本中的显著词,这些词对模型的决策过程影响最大。随后,这些显著词会经过经过精心设计的修改,根据语义相似度度量进行指导,以确保修改后的文本保持连贯并保留其原始含义。在各种文本分类数据集上进行的实证评估表明,所提出的方法能够生成成功欺骗最先进的分类模型的对抗性示例。与现有的对抗攻击技术进行的比较分析进一步指出了所提方法在攻击成功率和文本连贯性保持方面的优越性。
Mar, 2024
本研究提出了一种基于视觉显著性的方法,用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策,并在相对减少清理后图像的损失的同时,通过评估各种指标的准确性来证明它的有效性。
Mar, 2020
本文研究了通过对抗性的样本对基于卷积神经网络的相机模型检测器进行欺骗的反取证方法,并展示了即使用针对图像分析和获取相机模型信息的先进深度学习架构,也存在一定漏洞。
May, 2018
本文提出了一种基于 Saliency map 的对抗训练方法(SAT),通过使用详细的弱显著性图(如边界框和分割掩码)来改进模型的对抗鲁棒性,同时展示了如何进一步提高性能。
Jun, 2020
通过分析 Saliency Maps 和 Gradient-weighted Class Activation Maps 的方式,研究 Adversarial algorithms 如何影响神经网络的关注点,防止了一些防御成功而留下另一些迎接攻击的漏洞。
Jun, 2021
通过使用 JSM 作为一种模态无关的工具,我们提出了一种可解释的多模态 AD 分类模型,它能够为病理性脑变化提供洞察力,从而在模型调试和解释方面具有显著的效果,并且极大地提高了模型的准确性。
Feb, 2024
本文提出 Jacobian Adversarially Regularized Networks(JARN)方法,训练图像分类器,通过对抗正则化模型来优化分类器的 Jacobian,从而提高模型的鲁棒性。与标准模型相比,使用 JARN 训练的图像分类器在 MNIST,SVHN 和 CIFAR-10 数据集上表现出更优的鲁棒性,揭示了一种不使用对抗性训练示例提高模型鲁棒性的新方法。
Dec, 2019
本研究提出了一种增强型的文本对抗攻击方法,称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意力和语义相似性,提高了上下文扰动的效果。实验证明,SASSP 不仅生成高度语义保真的对抗样本,而且有效地欺骗了最先进的自然语言处理模型。
Jun, 2024