基于干净标签的 NLP 无触发后门攻击

ACLNov, 2021

基于干净标签的 NLP 无触发后门攻击

Triggerless Backdoor Attack for NLP Tasks with Clean Labels

Leilei Gan, Jiwei Li, Tianwei Zhang, Xiaoya Li, Yuxian Meng...

TL;DR本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Abstract

backdoor attacks pose a new threat to nlp models. A standard strategy to construct poisoned data in backdoor attacks is to insert triggers

backdoor attacks nlp models textual backdoor attacks poisoned samples clean-labeled examples

发现论文，激发创造

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

基于毒化的任意目标标签带正触发器的后门攻击

通过利用纯净数据集训练的网络作为触发器生成器，该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击（PPT），该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。

May, 2024

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023

洁净图像后门攻击

通过未经过修改的标签中的错误标签注入，我们提出了清洁图像后门攻击，揭示了后门仍然可以通过错误标签的一小部分分数进行注入，从而对图像分类模型的公正性和鲁棒性造成严重威胁，需要对外包标注中的错误标签保持警惕。

Mar, 2024

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024