后门攻击中的光谱签名
提出一个使用鲁棒协方差估计来放大数据污染的光谱特征的新型防御算法,从而完全消除后门,即使在先前的方法无法检测到污染样例的情况下,也能提供一个净模型。
Apr, 2021
本文提出了一种优化反向工程方法,通过检测、鉴定和逆向工程带有后门模式的图像,以在训练过程中防御起源类上的各种对抗攻击,以达到 CIFAR-10 中新的最佳性能。
Oct, 2020
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
Jul, 2023
提出了一种新颖的后门攻击方法,通过使用预训练的受害模型从干净图像中提取低级和高级语义特征,并基于通道注意力生成与高级特征相关联的触发模式,然后使用编码器模型生成受污染的图像,同时维持对后门防御的鲁棒性,实验结果表明,该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率,同时具有很好的隐秘性。
May, 2024
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性,特别是通过数据注入的后门攻击,通过注入极少的毒数据,攻击者可以成功实现攻击,进而窃取敏感信息,从而为后续研究防御策略提供了研究价值。
Dec, 2017
本文提出了一种基于扭曲触发器的后门攻击以及一种名为 “噪声模式” 的新型训练模式,旨在使这种攻击机制对机器防御者难以检测,其结果表明,这种后门攻击比先前的方法在人类检测测试中的表现要好得多,并成功地攻击和绕过 MNIST、CIFAR-10、GTSRB 和 CelebA 等标准分类数据集上的最新的防御方法。
Feb, 2021
对于机器学习中的黑门攻击,本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性,回答了一系列基本但以前未被充分探讨的问题,包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型,并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。
Oct, 2023