自然语言处理中后门攻击强度的评估方法重构

Jan, 2022

自然语言处理中后门攻击强度的评估方法重构

Rethink the Evaluation for Attack Strength of Backdoor Attacks in Natural Language Processing

Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi

TL;DR该研究介绍了一种新的指标 ASRD，用于评估后门攻击的真实攻击能力，并提出了 Trigger Breaker，可以有效地防御隐身后门攻击。

Abstract

It has been shown that natural language processing (NLP) models are vulnerable to a kind of security threat called the backdoor attack, which utilizes a `backdoor trigger' paradigm to mislead the models. The most

natural language processing backdoor attack stealthy backdoor attack success rate difference trigger breaker

发现论文，激发创造

防范隐蔽后门攻击

本文介绍了一些针对语言处理模型的后门攻击进行的防御策略，并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。

May, 2022

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

从统计学角度剖析毒化后门攻击

对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型，并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。

Oct, 2023

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类 - based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022