本研究提出了一种基于深度模型突变测试的新型防御方法,可以在 char-level,word-level,sentence-level 以及 style-level 水平上检测恶意后门样本,并在三个基准数据集和三个样式转换数据集上表现出优异的效果。
Jan, 2023
针对大型语言模型在黑盒环境下的后门攻击问题,我们提出了一种新颖的防御策略,即防御演示。我们的方法通过从未受污染的数据集中选择任务相关的演示案例,并将它们与用户查询一起用于测试,无需修改 / 调整黑盒模型或了解其内部机制,从而有效对抗后门攻击并在大多数场景中优于现有基准。
Nov, 2023
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
合并带后门模型与其他同类模型可以修复后门漏洞,即使这些模型并非完全安全,该方法可有效地、高效地防御后门攻击,并能持续优于其他先进的基准线方法,使攻击成功率降低 75%。
Feb, 2024
本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。
Oct, 2022
该研究重点探讨了预训练语言模型(PLMs)作为少样本学习器的安全风险,并提出了一种轻量、可插拔且有效的防御方案 MDP,利用掩码灵敏度的差异比较样本的表示,从而鉴别出有显著变化的被污染样本。经实验证明,MDP 在基准数据集和典型攻击上具有较好的效果。
Sep, 2023
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类 - based 的防御策略 CUBE,为未来模型开发提供了基础。
Jun, 2022
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024