Jul, 2020

通过后门关键词识别减轻基于 LSTM 的文本分类系统中的后门攻击

TL;DR分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。