BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

Oct, 2021

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models

Kangjie Chen, Yuxian Meng, Xiaofei Sun, Shangwei Guo, Tianwei Zhang...

TL;DR本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name，并设计了一种有效的绕过最新防御方案的策略，实验结果表明，该方法可以在有效和隐蔽的权衡下，攻击各种 NLP 任务。

Abstract

Pre-trained Natural Language Processing (nlp) models can be easily adapted to a variety of downstream language tasks. This significantly accelerates the development of language models. However, nlp models have be

nlp pre-trained models backdoor attacks task-agnostic transfer learning

发现论文，激发创造

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

针对预训练模型的多目标后门攻击

本文提出针对预训练代码模型的任务不可知后门攻击，包括受害模型隐藏蓄意损坏的策略和触发器，可以在多种代码生成和理解任务中成功实现目标攻击。

Jun, 2023

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

防范隐蔽后门攻击

本文介绍了一些针对语言处理模型的后门攻击进行的防御策略，并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。

May, 2022

基于词汇的零训练后门攻击语言模型

本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack，通过操作 language model 的嵌入字典，向 tokenizer 注入词汇触发器，实现攻击的隐秘性，实验结果表明该攻击方法的普遍性和有效性。

Feb, 2023

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

BadPre：面向预训练 NLP 基础模型的任务无关 后门攻击

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击