T-Miner：一种生成式方法来抵御基于 DNN 文本分类中的木马攻击

Mar, 2021

T-Miner：一种生成式方法来抵御基于 DNN 文本分类中的木马攻击

T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification

Ahmadreza Azizi, Ibrahim Asadullah Tahmid, Asim Waheed, Neal Mangaokar, Jiameng Pu...

TL;DR本论文介绍了一种基于 seq-2-seq 生成模型的 T-Miner 防御框架，用于保护基于 DNN 的文本分类器免受特洛伊攻击的威胁，该框架无需访问训练数据集或干净的输入。经过广泛的评估，T-Miner 检测到特洛伊和干净模型的总体准确性为 98.75％，同时对干净模型的假阳性较低，且能够抵抗来自适应攻击者的各种有针对性和高级进攻。

Abstract

Deep Neural Network (DNN) classifiers are known to be vulnerable to Trojan or backdoor attacks, where the classifier is manipulated such that it misclassifies any input containing an attacker-determined Trojan trigger. Backdoors compromise a model's integrity, thereby posing a severe threat to the landscape of DNN-based classification. While multiple defense

deep neural network classifier trojan attacks text classification defense framework t-miner

发现论文，激发创造

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

深度神经网络中特洛伊攻击的表面简单方法

本文提出了一种新的训练免费的攻击方法，使用一个小的特洛伊模块（TrojanNet）将恶意特征插入目标模型，该模型通过特殊标记对输入进行标记，并将所有标签注入特洛伊，攻击成功率达到 100％，且不会影响模型在原始任务上的准确性。

Jun, 2020

利用元神经分析检测 AI 木马

本文提出了 Meta Neural Trojan Detection (MNTD) 管道来解决机器学习特洛伊木马攻击检测的挑战，通过训练一个能够预测目标模型是否被特洛伊木马攻击的元分类器来检测黑盒模型，同时引入 jumbo learning 以对特洛伊木马攻击进行分类和预测。在试验和对比中表明，MNTD 达到了 97% 的检测 AUC 分数，并优于现有的检测方法。

Oct, 2019

用于打破深度学习后门攻击防御的特洛伊木马训练

本研究论文介绍了一种新的多目标后门攻击，使用非后门模型作为教师模型解决最小最大优化问题提升攻击模型的性能，不能有效防御后门模型的特定输出的防御机制准确性将降至 0％。

Mar, 2022

TextGuard：文本分类背门攻击的可证明防御

TextGuard 是针对文本分类中的后门攻击提出的第一个可证明的防御方法，通过将训练数据分成子训练集，并从每个子训练集中训练基分类器，最后进行集成预测，可以确保在训练和测试输入中存在触发器时不受其影响。与现有的认证防御方法相比，TextGuard 在三个基准文本分类任务上表现出了更高的准确性，并提出了增强 TextGuard 经验性能的额外策略，通过与最先进的经验性防御方法进行比较，证实了 TextGuard 在对抗多个后门攻击方面的优势。

Nov, 2023

基于拓扑先验的特洛伊木马检测触发器探测

探讨如何检测 DNN 在受到 Backdoor 攻击后的 Trojan，提出新颖的优先条件，如多样性和拓扑简单性，来增加发现合适触发器的可能性和改善触发器的质量，从而有效地提高了 Trojan 进行检测的准确性。

Oct, 2021

实用的发现木马神经网络方法：数据受限和无数据情况

本文探讨了当训练数据遭到恶意篡改时，如何在只能访问已训练深度神经网络的权重的情况下，检测到网络的特洛伊后门攻击（也称为毒化后门攻击），并提出了数据受限和数据无关的特洛伊检测器，该方法通过对定向攻击和预测规避攻击的连接来实现特洛伊检测。实验结果使用 CIFAR-10、GTSRB 和 ImageNet 数据集进行了验证。

Jul, 2020

通过后门关键词识别减轻基于 LSTM 的文本分类系统中的后门攻击

分析内部 LSTM 神经元的变化，提出了一种防御方法，名为 Backdoor Keyword Identification，用于防御针对基于 LSTM 的文本分类的后门攻击，该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本，实验结果表明无论触发句子如何，该方法在四个不同的文本分类数据集上都取得了良好的性能。

Jul, 2020

基于扰动敏感性的自然语言处理神经木马检测框架 PerD

该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马，并提出了一种轻量级变体以提高检测速度。

Aug, 2022

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020