分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。
Jul, 2020
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
本文针对深度学习领域的后门攻击进行研究,通过添加训练任务以区分被污染数据和干净数据,以及使用原有的干净数据进行攻击,提高攻击效果,并在三种场景下进行了实验验证。
Oct, 2021
本研究介绍一种新的深度学习技术,可用于抵御针对文本分类模型的后门攻击,能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。
Oct, 2022
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性,特别是通过数据注入的后门攻击,通过注入极少的毒数据,攻击者可以成功实现攻击,进而窃取敏感信息,从而为后续研究防御策略提供了研究价值。
Dec, 2017
探索深度序列异常检测模型的后门攻击策略,通过生成触发器和注入后门触发器,有效地破坏现有异常检测模型。
Feb, 2024
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
本文介绍了一种特定类型的数据投毒攻击,即后门注入攻击,讨论了攻击者注入后门到深度学习模型中的方法,并提出了两种在不削弱受害者模型有效性的情况下,难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估,并证明即使在最弱的攻击者模型下,这种攻击可以在小的注入率(约为 1%)条件下实现高达 90%以上的攻击成功率。
Aug, 2018
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022