IMBERT: 使 BERT 免受插入式后门攻击
通过直接操纵注意力模式,我们提出了一种新颖的特洛伊注意力损失(TAL),以增强特洛伊行为,并提高攻击成功率和污染率,不仅适用于传统的脏标签攻击,还适用于更具挑战性的干净标签攻击。
Oct, 2023
合并带后门模型与其他同类模型可以修复后门漏洞,即使这些模型并非完全安全,该方法可有效地、高效地防御后门攻击,并能持续优于其他先进的基准线方法,使攻击成功率降低 75%。
Feb, 2024
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。
Jul, 2020
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021
本文提出了一种名为 BITE 的后门攻击方法,通过注入包含 “触发词” 的训练数据,从而在模型中建立目标标签和触发词之间的强相关性,并形成后门,从而提高攻击成功率。作者还提出了一种名为 DeBITE 的防御方法,能够有效抵御后门攻击。
May, 2022
本文提出了一种新颖的隐形后门攻击方法,该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数,从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息,并考虑对多种最新防御措施的效果验证。
May, 2022
本文研究在深度学习系统中敌对攻击的问题,使用字符级攻击并检验了几种防御方法和模型,表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。
Jun, 2021
本文提出了一种输入唯一的后门攻击方法 (IDBA),可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器,解决了现有后门攻击方法的缺陷,不仅可以生成流畅、语法正确且多样化的后门输入,同时也达到了高攻击成功率,且难以被现有防御方法识别。
Mar, 2023