防范隐蔽后门攻击
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响,并提出了相应的防御策略。通过测试生成目标给定源的后向概率,能够有效地防御各种类型的攻击,并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注,并启发更多有关攻击和防御的未来研究。
Jun, 2021
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
我们提出了一个有效的防御框架,该框架在数据预处理过程中注入非对抗性后门,以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中,我们的方法实现了业界领先的防御效果,在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力,我们呼吁更多关注如何利用后门进行后门防御。
Jul, 2023
本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。
Oct, 2022
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name,并设计了一种有效的绕过最新防御方案的策略,实验结果表明,该方法可以在有效和隐蔽的权衡下,攻击各种 NLP 任务。
Oct, 2021