深度神经网络的特洛伊攻击与防御综述
本研究提出了一种新的目标二进制特洛伊(TBT)方法,为实现模型的恶意攻击,通过比特翻转攻击将特定的神经特洛伊插入到深度神经网络中。研究表明,只需利用可用的比特翻转技术(即行锤),翻转几个易受攻击的比特就可以将功能完好的DNN模型转化为特洛伊感染的模型,并实现将测试图像的92%分类到目标类的目的。
Sep, 2019
本文提出了一种新的训练免费的攻击方法,使用一个小的特洛伊模块(TrojanNet)将恶意特征插入目标模型,该模型通过特殊标记对输入进行标记,并将所有标签注入特洛伊,攻击成功率达到100%,且不会影响模型在原始任务上的准确性。
Jun, 2020
本文针对深度神经网络在图像应用中受到的特洛伊攻击,提出一种基于内容而非样式的防御技术,通过分析神经网络中样式和内容的学习和识别方式,成功将攻击成功率下降至小于1%,同时保持和提高模型在良性和对抗性数据处理中的准确性。
Jul, 2020
本文提出了一种检测预训练模型是否被恶意篡改的方法,该方法通过学习神经网络的参数来捕获其对抗扰动,以检测是否存在后门;同时,本文还提出了一种异常检测方法来确定被感染的网络的目标类别。实验结果表明该方法检测恶意后门的准确率高达92%以上。
Jul, 2020
本文探讨了当训练数据遭到恶意篡改时,如何在只能访问已训练深度神经网络的权重的情况下,检测到网络的特洛伊后门攻击(也称为毒化后门攻击),并提出了数据受限和数据无关的特洛伊检测器,该方法通过对定向攻击和预测规避攻击的连接来实现特洛伊检测。实验结果使用 CIFAR-10、GTSRB 和 ImageNet 数据集进行了验证。
Jul, 2020
研究了深度神经网络中的后门攻击,发现了后门相关神经元和正常神经元之间的本质差异,并设计了一种新的训练方法,可以有效地防御注入后门,实验证明其效果显著。
Feb, 2022
本文提出了两种新型的防御方法:变分输入过滤(VIF)和对抗输入过滤(AIF),以及一种新的防御机制“过滤-对比”,针对当前危险和隐蔽的特洛伊攻击发展,总结了丰富的实验和剖析研究,证明了基于VIF/AIF/FtC的新型防御方法能够在有效净化来自潜在特洛伊触发器的输入的同时,保持高水平分类准确性,并具有出色的鲁棒性。
Feb, 2022
该研究提出了MDTD,一种用于检测DNN中的多领域特洛伊木马触发器的模型。MDTD利用对抗学习方法估计距离决策边界的距离,以推断是否存在特洛伊木马触发器,对不同类型的触发器进行有效的识别。
Aug, 2023
我们提出并分析了一种自适应对手,可以重新训练带有特洛伊的深度神经网络(DNN),并知道最先进的基于输出的特洛伊模型检测器。我们展示了这样一种对手可以保证(1)嵌入触发器和干净样本的高准确率以及(2)绕过检测。我们的方法基于这样一个观察,即DNN参数的高维度提供足够的自由度来同时实现这些目标。我们还通过允许重新训练来使最先进的检测器具有适应性,以重新校准它们的参数,从而对特洛伊模型和检测器的参数进行建模。然后,我们展示了这种协同进化可以建模为一个迭代博弈,并证明了该交互博弈的结果(最优解)可以使对手成功实现上述目标。此外,我们为对手提供了一种贪婪算法,以选择最少数量的输入样本来嵌入触发器。我们证明了对于DNN使用的交叉熵或对数似然损失函数,贪婪算法对所需的嵌入触发器输入样本的数量提供了可证明的保证。在MNIST、CIFAR-10、CIFAR-100和SpeechCommand这四个不同的数据集上进行的大量实验证明了对手有效地逃避了四种最先进的基于输出的特洛伊模型检测器: MNTD、NeuralCleanse、STRIP和TABOR。
Feb, 2024