深度神经网络的特洛伊攻击与防御综述

Aug, 2024

深度神经网络的特洛伊攻击与防御综述

A Survey of Trojan Attacks and Defenses to Deep Neural Networks

Lingxin Jin, Xianyu Wen, Wei Jiang, Jinyu Zhan

TL;DR本研究聚焦于深度神经网络（DNN）面临的特洛伊攻击及其防御机制，揭示了DNN的脆弱性及其在安全关键人工智能系统中的影响。通过对特洛伊攻击的演变以及各种攻击和防御策略的综合分析，提供了改进这些技术的有益见解，强调了在实际应用中应对此问题的紧迫性。

Abstract

Deep Neural Networks (DNNs) have found extensive applications in safety-critical artificial intelligence systems, such as autonomous driving and facial recognition systems. However, recent research has revealed their susceptibility to Neural Network Trojans (NN Trojans) maliciously inj

发现论文，激发创造

TBT: 基于位木马的有针对性神经网络攻击

本研究提出了一种新的目标二进制特洛伊（TBT）方法，为实现模型的恶意攻击，通过比特翻转攻击将特定的神经特洛伊插入到深度神经网络中。研究表明，只需利用可用的比特翻转技术（即行锤），翻转几个易受攻击的比特就可以将功能完好的DNN模型转化为特洛伊感染的模型，并实现将测试图像的92％分类到目标类的目的。

Sep, 2019

深度神经网络中特洛伊攻击的表面简单方法

本文提出了一种新的训练免费的攻击方法，使用一个小的特洛伊模块（TrojanNet）将恶意特征插入目标模型，该模型通过特殊标记对输入进行标记，并将所有标签注入特洛伊，攻击成功率达到100％，且不会影响模型在原始任务上的准确性。

Jun, 2020

ConFoc: 基于内容焦点的神经网络特洛伊攻击防护

本文针对深度神经网络在图像应用中受到的特洛伊攻击，提出一种基于内容而非样式的防御技术，通过分析神经网络中样式和内容的学习和识别方式，成功将攻击成功率下降至小于1％，同时保持和提高模型在良性和对抗性数据处理中的准确性。

Jul, 2020

Cassandra: 从对抗扰动中检测木马网络

本文提出了一种检测预训练模型是否被恶意篡改的方法，该方法通过学习神经网络的参数来捕获其对抗扰动，以检测是否存在后门；同时，本文还提出了一种异常检测方法来确定被感染的网络的目标类别。实验结果表明该方法检测恶意后门的准确率高达92%以上。

Jul, 2020

实用的发现木马神经网络方法：数据受限和无数据情况

本文探讨了当训练数据遭到恶意篡改时，如何在只能访问已训练深度神经网络的权重的情况下，检测到网络的特洛伊后门攻击（也称为毒化后门攻击），并提出了数据受限和数据无关的特洛伊检测器，该方法通过对定向攻击和预测规避攻击的连接来实现特洛伊检测。实验结果使用 CIFAR-10、GTSRB 和 ImageNet 数据集进行了验证。

Jul, 2020

更加自信地训练: 在训练期间减轻注入和自然后门的影响

研究了深度神经网络中的后门攻击，发现了后门相关神经元和正常神经元之间的本质差异，并设计了一种新的训练方法，可以有效地防御注入后门，实验证明其效果显著。

Feb, 2022

深度学习中神经木马攻击和防御的调查

该研究论文对深度学习中的特洛伊木马攻击及其防御进行综述，系统总结近期的方法，同时讨论其关键概念，为了让更广泛的社区了解神经特洛伊木马的最新发展。

Feb, 2022

通过输入过滤实现有效和强大的神经木马防御

本文提出了两种新型的防御方法:变分输入过滤（VIF）和对抗输入过滤（AIF），以及一种新的防御机制“过滤-对比”，针对当前危险和隐蔽的特洛伊攻击发展，总结了丰富的实验和剖析研究，证明了基于VIF/AIF/FtC的新型防御方法能够在有效净化来自潜在特洛伊触发器的输入的同时，保持高水平分类准确性，并具有出色的鲁棒性。

Feb, 2022

MDTD：基于深度神经网络的多领域木马检测器

该研究提出了MDTD，一种用于检测DNN中的多领域特洛伊木马触发器的模型。MDTD利用对抗学习方法估计距离决策边界的距离，以推断是否存在特洛伊木马触发器，对不同类型的触发器进行有效的识别。

Aug, 2023

木马博弈：针对基于输出的木马模型检测器的自适应对抗

我们提出并分析了一种自适应对手，可以重新训练带有特洛伊的深度神经网络(DNN)，并知道最先进的基于输出的特洛伊模型检测器。我们展示了这样一种对手可以保证(1)嵌入触发器和干净样本的高准确率以及(2)绕过检测。我们的方法基于这样一个观察，即DNN参数的高维度提供足够的自由度来同时实现这些目标。我们还通过允许重新训练来使最先进的检测器具有适应性，以重新校准它们的参数，从而对特洛伊模型和检测器的参数进行建模。然后，我们展示了这种协同进化可以建模为一个迭代博弈，并证明了该交互博弈的结果(最优解)可以使对手成功实现上述目标。此外，我们为对手提供了一种贪婪算法，以选择最少数量的输入样本来嵌入触发器。我们证明了对于DNN使用的交叉熵或对数似然损失函数，贪婪算法对所需的嵌入触发器输入样本的数量提供了可证明的保证。在MNIST、CIFAR-10、CIFAR-100和SpeechCommand这四个不同的数据集上进行的大量实验证明了对手有效地逃避了四种最先进的基于输出的特洛伊模型检测器: MNTD、NeuralCleanse、STRIP和TABOR。

Feb, 2024