该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击,提出了通过知识蒸馏的防御方法,并在实验中取得了成功。
May, 2021
本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件,并研究后门数据污染攻击的成功率及其可被检测的难度。
Apr, 2020
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
该论文研究了针对深度学习系统的后门攻击,提出了一种不使用标签毒化的新型后门攻击方式,并在 MNIST 手写数字识别和交通标志分类任务上得出了实验结果。
Feb, 2019
通过未经过修改的标签中的错误标签注入,我们提出了清洁图像后门攻击,揭示了后门仍然可以通过错误标签的一小部分分数进行注入,从而对图像分类模型的公正性和鲁棒性造成严重威胁,需要对外包标注中的错误标签保持警惕。
Mar, 2024
本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法,实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理,这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。
Oct, 2021
自我监督学习模型容易受到后门攻击,而现有的有效后门攻击方法常常涉及可察觉的触发机制,如有颜色的补丁,容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法,通过优化特定触发机制的设计,使其与自我监督学习中的增广转换有区分度,并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘,并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。
May, 2024
通过对未标记的数据进行自我监督学习(SSL),本研究调查了基于后门攻击的潜在风险,在没有标签信息的情况下,通过聚类和对比度选择两种毒化策略,证明了在许多 SSL 方法中,无标签后门攻击可以有效地超越随机毒化。
Apr, 2024
本文提出了一种优化反向工程方法,通过检测、鉴定和逆向工程带有后门模式的图像,以在训练过程中防御起源类上的各种对抗攻击,以达到 CIFAR-10 中新的最佳性能。
Oct, 2020
通过 corrupt labels 设计的 label-only backdoor attack 方法 FLIP,在几个数据集和架构上展示了其强大的攻击能力,并且只引起 1.8% 的 clean test 准确度下降。
Oct, 2023