毒害伪造脸部:面向面部伪造检测的后门攻击
深度神经网络在面部伪造检测模型中显著提高了性能,但是其安全性受到注入触发器(即后门攻击)的威胁。为了进一步研究自然触发器,我们提出了一种基于合成分析的面部伪造检测模型后门攻击,将自然触发器嵌入潜在空间,并通过两个角度对此类后门漏洞进行了深入研究:(1)模型区分(基于优化的触发器):我们采用替代检测模型并通过最小化交叉熵损失找到触发器;(2)数据分布(自定义触发器):我们通过操纵长尾分布中的不常见面部属性来生成没有检测模型监督的污染样本。此外,为了对最新的人工智能生成内容进行全面评估,我们在触发器生成中使用了领先的 StyleGAN 和 Stable Diffusion。最后,这些后门触发器为生成的有毒样本引入了特定的语义特征(例如皮肤纹理和微笑),使其更自然、更健壮。大量实验证明我们的方法在三个层面上都具有优越性:(1)攻击成功率:我们的方法在攻击成功率方面表现出色(超过 99%),并且在低污染率(低于 3%)下模型准确性下降较小(低于 0.2%);(2)后门防御:我们的方法在面对现有的后门防御方法时显示出更好的鲁棒性;(3)人工检查:通过综合用户研究,我们的方法对人视觉更不敏感。
Dec, 2023
利用决策导向攻击和频率线索,我们提出了一种新的人脸伪造攻击方法,具有高查询效率和保证图像质量,在 FaceForensics++、CelebDF 和工业 API 上实现了攻击性能的最新突破,同时揭示了人脸伪造检测器的安全问题。
Oct, 2023
该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性,特别是通过数据注入的后门攻击,通过注入极少的毒数据,攻击者可以成功实现攻击,进而窃取敏感信息,从而为后续研究防御策略提供了研究价值。
Dec, 2017
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
本文提出了一种优化反向工程方法,通过检测、鉴定和逆向工程带有后门模式的图像,以在训练过程中防御起源类上的各种对抗攻击,以达到 CIFAR-10 中新的最佳性能。
Oct, 2020
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
通过利用纯净数据集训练的网络作为触发器生成器,该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击(PPT),该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。
May, 2024
提出了一种有效的对抗性样本(backdoor)防御方法,它由多个子模块组成,能够在检测到 backdoor 的同时进行筛选清洗,并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。
Nov, 2019