深度神经网络中特洛伊攻击的表面简单方法

Jun, 2020

深度神经网络中特洛伊攻击的表面简单方法

An Embarrassingly Simple Approach for Trojan Attack in Deep Neural Networks

Ruixiang Tang, Mengnan Du, Ninghao Liu, Fan Yang, Xia Hu

TL;DR本文提出了一种新的训练免费的攻击方法，使用一个小的特洛伊模块（TrojanNet）将恶意特征插入目标模型，该模型通过特殊标记对输入进行标记，并将所有标签注入特洛伊，攻击成功率达到 100％，且不会影响模型在原始任务上的准确性。

Abstract

With the widespread use of deep neural networks (DNNs) in high-stake applications, the security problem of the DNN models has received extensive attention. In this paper, we investigate a specific security problem

deep neural network security problem trojan attack trojannet model-agnostic

发现论文，激发创造

实用的发现木马神经网络方法：数据受限和无数据情况

本文探讨了当训练数据遭到恶意篡改时，如何在只能访问已训练深度神经网络的权重的情况下，检测到网络的特洛伊后门攻击（也称为毒化后门攻击），并提出了数据受限和数据无关的特洛伊检测器，该方法通过对定向攻击和预测规避攻击的连接来实现特洛伊检测。实验结果使用 CIFAR-10、GTSRB 和 ImageNet 数据集进行了验证。

Jul, 2020

放大特洛伊网络：通过放大神经网络固有的弱点来进行攻击

本研究发现，在特定情况下，当对干净数据添加非常小的噪音时（被称为放大特洛伊攻击），也能够欺骗深度神经网络的分类器。我们使用特洛伊网络作为放大器，以放大目标 DNN 的固有弱点，对干净数据产生了不可感知的影响，从而使目标 DNN 更脆弱于对抗性的样本，这种新的威胁应该在开发安全 DNNs 时加以考虑。

May, 2023

TBT: 基于位木马的有针对性神经网络攻击

本研究提出了一种新的目标二进制特洛伊（TBT）方法，为实现模型的恶意攻击，通过比特翻转攻击将特定的神经特洛伊插入到深度神经网络中。研究表明，只需利用可用的比特翻转技术（即行锤），翻转几个易受攻击的比特就可以将功能完好的 DNN 模型转化为特洛伊感染的模型，并实现将测试图像的 92％分类到目标类的目的。

Sep, 2019

Cassandra: 从对抗扰动中检测木马网络

本文提出了一种检测预训练模型是否被恶意篡改的方法，该方法通过学习神经网络的参数来捕获其对抗扰动，以检测是否存在后门；同时，本文还提出了一种异常检测方法来确定被感染的网络的目标类别。实验结果表明该方法检测恶意后门的准确率高达 92% 以上。

Jul, 2020

深度神经网络的活体木马攻击

通过在内存中修补模型参数，攻击者可以实现对深度学习系统的实时攻击，并演示了如何在 Windows 和 Linux 中修补 TensorFlow 模型参数以及有效地操作被扰动的输入数据的熵以绕过 STRIP 的新技术

Apr, 2020

深度学习中神经木马攻击和防御的调查

该研究论文对深度学习中的特洛伊木马攻击及其防御进行综述，系统总结近期的方法，同时讨论其关键概念，为了让更广泛的社区了解神经特洛伊木马的最新发展。

Feb, 2022

基于扰动敏感性的自然语言处理神经木马检测框架 PerD

该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马，并提出了一种轻量级变体以提高检测速度。

Aug, 2022

用于打破深度学习后门攻击防御的特洛伊木马训练

本研究论文介绍了一种新的多目标后门攻击，使用非后门模型作为教师模型解决最小最大优化问题提升攻击模型的性能，不能有效防御后门模型的特定输出的防御机制准确性将降至 0％。

Mar, 2022

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

ConFoc: 基于内容焦点的神经网络特洛伊攻击防护

本文针对深度神经网络在图像应用中受到的特洛伊攻击，提出一种基于内容而非样式的防御技术，通过分析神经网络中样式和内容的学习和识别方式，成功将攻击成功率下降至小于 1％，同时保持和提高模型在良性和对抗性数据处理中的准确性。

Jul, 2020