DiffPAD:去噪扩散基础的对抗性补丁去污
本文介绍了一种基于图像残差的对抗样本检测算法,特别设计用于防范基于补丁的攻击。使用小波域算法对图像进行去噪并用判别器区分干净和对抗样本的差值被作为图像残差,我们证明了被获取的残差可以作为对抗攻击的数字指纹。该检测方法对之前未见的攻击方法具有一定的普适性,可以减小自适应攻击者的攻击成功率,但需要更大的计算量。
Feb, 2020
该论文提出了一种名为Diff-PGD的新框架,用于生成逼真的对抗样本,并通过使用扩散模型引导梯度,确保对抗样本保持靠近原始数据分布同时保持其有效性,证明使用Diff-PGD生成的样本具有更好的可转移性和抗净化能力。
May, 2023
基于扩散的对抗净化技术MimicDiffusion直接近似扩散模型的生成过程,以清晰图像作为输入,通过分析使用清晰图像和对抗样本时的引导项的差异,通过曼哈顿距离和两种引导策略净化对抗扰动,逼近清晰扩散模型,实验证明MimicDiffusion显著优于现有算法,在CIFAR-10、CIFAR-100和ImageNet三个数据集上的平均鲁棒准确率分别提高了18.49%、13.23%和17.64%。
Dec, 2023
提出了一种名为PAD的新颖的对抗贴纸定位和去除方法,该方法不需要先前知识或额外训练,提供了针对各种对抗贴纸的无关补丁防御,与任何预训练的物体检测器兼容。
Apr, 2024
借助扩散模型的合成能力,我们提出了基于扩散的模型反演攻击方法(Diff-MI),用于从目标分类器的训练集中重构私密图像,以平衡攻击准确性和合成质量。通过预训练和微调学习范式,结合扩散先验和目标知识的迭代图像重构方法,以及改进的最大边界损失函数,Diff-MI显著提高了生成质量,同时在各种数据集和模型上保持了竞争性的攻击准确性。
Jul, 2024
本研究解决了扩散基础净化方法在处理对抗性示例中的固有净化误差问题。提出的LoRID方法通过多阶段净化过程和Tucker分解,实现在高噪声条件下有效去除对抗性噪声。研究表明,LoRID显著提高了在CIFAR-10/100、CelebA-HQ和ImageNet数据集中的对抗性攻击鲁棒性。
Sep, 2024
本研究针对深度学习模型面临的补丁攻击问题,提出了一种新颖的DIFFender框架,利用文本引导的扩散模型有效检测和定位对抗性补丁。该框架集成了补丁定位与恢复任务,并采用高效的少样本提示调优算法,显著提升了防御效率。经过全面评估,DIFFender展示了在不同任务和真实场景下的强大防御性能,标志着对抗补丁防御策略的重大进展。
Sep, 2024
本文针对现有的扩散模型在对抗纯化中的缺陷,提出了一种新颖的随机采样方案,以增强模型在对抗攻击下的鲁棒性。该研究发现,随机采样在多个实验设置中显著优于现有最先进的方法,并且在强攻击下表现出超过20%的鲁棒性提升。
Nov, 2024
本研究解决了现有对抗性贴片生成方法在隐蔽性与攻击效果之间难以平衡的问题。我们提出了一种新的扩散模型框架DiffPatch,使用户能够利用参考图像生成自然且可定制的对抗性贴片,并采用Null-text反演技术保持原始语义。实验结果表明,DiffPatch生成的贴片在视觉上无明显不适,且在攻击效果上与最先进的贴片相当。
Dec, 2024