Mar, 2021

T-Miner:一种生成式方法来抵御基于 DNN 文本分类中的木马攻击

TL;DR本论文介绍了一种基于 seq-2-seq 生成模型的 T-Miner 防御框架,用于保护基于 DNN 的文本分类器免受特洛伊攻击的威胁,该框架无需访问训练数据集或干净的输入。经过广泛的评估,T-Miner 检测到特洛伊和干净模型的总体准确性为 98.75%,同时对干净模型的假阳性较低,且能够抵抗来自适应攻击者的各种有针对性和高级进攻。