人类中心语言模型中的隐藏后门

May, 2021

Hidden Backdoors in Human-Centric Language Models

Shaofeng Li, Hui Liu, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue...

TL;DR本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

Abstract

natural language processing (NLP) systems have been proven to be vulnerable to backdoor attacks, whereby hidden features (backdoors) are trained into a →

natural language processing backdoor attacks hidden triggers language model security-critical nlp tasks

发现论文，激发创造

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

隐形杀手：带有语法触发器的不可见文本后门攻击

本文研究基于句法结构的文字后门攻击方法，实验表明该方法具有相当的攻击性能，同时具有更高的隐蔽性和抵御防御的能力。

May, 2021

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

可学习的文本后门攻击：基于词替换的组合锁攻击

本文研究表明神经自然语言处理模型容易受到后门攻击的威胁，而现有文本后门攻击方法容易被检测和阻拦，因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法，结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽，对于 NLP 模型的安全构成威胁，需要进一步研究解决。

Jun, 2021

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

标点符号重要性！针对语言模型的隐蔽后门攻击

本研究提出了一种新颖的对文本模型的隐秘后门攻击方法，称为 PuncAttack，该方法利用标点符号的组合作为触发器，并选择适当的位置进行替换，通过广泛的实验，证明了该方法能够有效地破坏各种任务中的多个模型，并通过自动评估和人工检查表明，该方法具有较好的隐秘性能，不会引发语法问题或改变句子的含义。

Dec, 2023