IMBERT: 使 BERT 免受插入式后门攻击

May, 2023

IMBERT: 使 BERT 免受插入式后门攻击

IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks

Xuanli He, Jun Wang, Benjamin Rubinstein, Trevor Cohn

TL;DR本文介绍了一种基于自我防御策略的解决方案 IMBERT，用于在推断时有效地识别和减少后门攻击的成功率，特别针对自然语言处理应用中的后门攻击漏洞问题，并在多个预先训练的变压器模型上验证，取得了竞争性的准确性。

Abstract

backdoor attacks are an insidious security threat against machine learning models. Adversaries can manipulate the predictions of compromised models by inserting triggers into the training phase. Various

backdoor attacks machine learning imbert vulnerabilities natural language processing

发现论文，激发创造

增强注意力的背门攻击对基于 BERT 模型的影响

通过直接操纵注意力模式，我们提出了一种新颖的特洛伊注意力损失（TAL），以增强特洛伊行为，并提高攻击成功率和污染率，不仅适用于传统的脏标签攻击，还适用于更具挑战性的干净标签攻击。

Oct, 2023

消除带后门模型的魔合技巧

合并带后门模型与其他同类模型可以修复后门漏洞，即使这些模型并非完全安全，该方法可有效地、高效地防御后门攻击，并能持续优于其他先进的基准线方法，使攻击成功率降低 75%。

Feb, 2024

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

利用后门维护我们的隐私

通过插入后门，我们提出了一种简单而有效的防御方法，以消除模型中的私人信息，特别是在文本编码器中，从而增强不经过过滤的网络爬取数据上的个人隐私。

Oct, 2023

通过后门关键词识别减轻基于 LSTM 的文本分类系统中的后门攻击

分析内部 LSTM 神经元的变化，提出了一种防御方法，名为 Backdoor Keyword Identification，用于防御针对基于 LSTM 的文本分类的后门攻击，该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本，实验结果表明无论触发句子如何，该方法在四个不同的文本分类数据集上都取得了良好的性能。

Jul, 2020

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

迭代触发器注入的文本后门攻击

本文提出了一种名为 BITE 的后门攻击方法，通过注入包含 “触发词” 的训练数据，从而在模型中建立目标标签和触发词之间的强相关性，并形成后门，从而提高攻击成功率。作者还提出了一种名为 DeBITE 的防御方法，能够有效抵御后门攻击。

May, 2022

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

BERT-Defense: 基于 BERT 的概率模型用于抵御认知启发式正交攻击

本文研究在深度学习系统中敌对攻击的问题，使用字符级攻击并检验了几种防御方法和模型，表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。

Jun, 2021

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023