部分训练和隔离:缓解后门攻击
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
提出了一种有效的对抗性样本(backdoor)防御方法,它由多个子模块组成,能够在检测到 backdoor 的同时进行筛选清洗,并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。
Nov, 2019
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法,从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。
Apr, 2022
研究了深度神经网络中的后门攻击,发现了后门相关神经元和正常神经元之间的本质差异,并设计了一种新的训练方法,可以有效地防御注入后门,实验证明其效果显著。
Feb, 2022
本文提出了一种新的神经网络后门检测和修复方法,经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信,恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况,是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。
Nov, 2018
本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法,实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理,这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。
Oct, 2021
利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而,我们揭示了一种新的漏洞:隐私后门攻击,通过该攻击,在微调受后门影响的模型时,训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性,并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题,并呼吁重新评估使用开源预训练模型的安全协议。
Apr, 2024
提出一种只需对干净模型进行最小修改(特别是输出层)以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本,并引入一种新的后门攻击方法来实现。在 MNIST,CIFAR-10,GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。
Mar, 2024