基于扩散模型的语义对抗攻击
本文提出了一种实用的针对深度神经网络的对抗攻击方法,通过语义意义感知的结构化扰动来操纵图像的语义属性,以此生成针对黑盒分类器的对抗扰动,并提出了两种无监督的语义操作方法,通过在潜在空间中扰动单个或多个潜在因素,并在真实图像数据上进行大量实验,证明了其能力的强大性,同时也论证了普适于所有图像的语义对抗样本的存在。
Jan, 2020
本研究旨在探索语义干扰对深度神经网络预测结果的影响,并通过提出的算法 SemanticAdv 来生成对各种 “对抗性” 目标偏离的扰动,从而欺骗深度神经网络。实验结果表明,具有控制语义干扰的对抗性例子不仅可以迷惑不同的学习任务,还可以对抗基于迁移的真实世界黑盒服务。
Jun, 2019
本文提出了一种新类的对抗样本 ——“语义对抗样本”,即通过对图像进行任意扰动来欺骗模型,但修改后的图像在语义上代表的仍是原始图像,通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换,生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。
Mar, 2018
该研究论文提出了一种统一的框架 Adv-Diffusion,可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动,利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型,设计了自适应强度的对抗性扰动算法,既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验,证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。
Dec, 2023
提出了一种具有良好迁移性和隐蔽性的对抗语义掩码攻击框架 (ASMA),该框架使用了语义掩码来生成具有局部语义区域中的扰动的对抗样本,并通过自适应语义掩码选择策略提高了攻击的迁移性和隐蔽性。与其他对抗攻击方法相比,该方法在公共人脸伪造数据集上具有卓越的性能。
Jun, 2024
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步 “欺骗” 扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
传统的迁移攻击成本高,噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本,提出了 AdvDiffVLM 方法,利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷,并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示,我们的方法在速度上比现有方法快 10 倍至 30 倍,并保持了超强的对抗样本质量。此外,生成的对抗样本在攻击上具有强大的迁移性,并对对抗性防御方法表现出增强的抗性。值得注意的是,AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型,包括 GPT-4V。
Apr, 2024
我们提出了一种新的方法,在互模态优化方案中生成对抗性攻击,利用预训练的 CLIP 模型进行视觉攻击和文本防御,并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证,表明我们的互模态攻击策略能够有效产生高可转移攻击,并且优于最先进的攻击方法,可作为即插即用解决方案。
Dec, 2023