通过 corrupt labels 设计的 label-only backdoor attack 方法 FLIP,在几个数据集和架构上展示了其强大的攻击能力,并且只引起 1.8% 的 clean test 准确度下降。
Oct, 2023
本文提出了一种优化反向工程方法,通过检测、鉴定和逆向工程带有后门模式的图像,以在训练过程中防御起源类上的各种对抗攻击,以达到 CIFAR-10 中新的最佳性能。
Oct, 2020
通过使用适当的数据增强手段,自主训练能够在缓解后门攻击中扮演重要角色。
Jan, 2023
该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性,特别是通过数据注入的后门攻击,通过注入极少的毒数据,攻击者可以成功实现攻击,进而窃取敏感信息,从而为后续研究防御策略提供了研究价值。
Dec, 2017
通过未经过修改的标签中的错误标签注入,我们提出了清洁图像后门攻击,揭示了后门仍然可以通过错误标签的一小部分分数进行注入,从而对图像分类模型的公正性和鲁棒性造成严重威胁,需要对外包标注中的错误标签保持警惕。
Mar, 2024
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
通过利用纯净数据集训练的网络作为触发器生成器,该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击(PPT),该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。
May, 2024
本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击,通过注入似乎合理但难以分类的输入来使模型依赖于(易于学习的)后门触发器,达到攻击的目的。
Dec, 2019
本文介绍了一种特定类型的数据投毒攻击,即后门注入攻击,讨论了攻击者注入后门到深度学习模型中的方法,并提出了两种在不削弱受害者模型有效性的情况下,难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估,并证明即使在最弱的攻击者模型下,这种攻击可以在小的注入率(约为 1%)条件下实现高达 90%以上的攻击成功率。
Aug, 2018
本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件,并研究后门数据污染攻击的成功率及其可被检测的难度。
Apr, 2020