高效触发词插入

Nov, 2023

Efficient Trigger Word Insertion

Yueqi Zeng, Ziqiang Li, Pengfei Xia, Lei Liu, Bin Li

TL;DR本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Abstract

With the boom in the natural language processing (NLP) field these years, backdoor attacks pose immense threats against deep neural network models. However, previous works hardly consider the effect of the

natural language processing backdoor attacks poisoning rate trigger word insertion attack effectiveness

发现论文，激发创造

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

ParaFuzz: NLP 中一种基于可解释性技术的检测有毒样本的方法

本研究提出了一种创新的测试时毒样本检测框架，依靠模型预测的可解释性，并关注输入的语义含义，旨在解决当前检测机制对于隐蔽型后门攻击（如基于风格的攻击）的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务，并结合模糊测试技术发现最佳的改写提示来有效消除触发词，同时保持输入语义，实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法（包括 STRIP，RAP 和 ONION）的准确率和召回率。

Aug, 2023

无声杀手：优化后门触发器从而实现隐蔽而强大的数据投毒攻击

利用数据污染，添加即便微小干扰也能改变模型原本判断的样本分类，且添加的干扰本身难以被发现，同时在效率上有所提升的神经网络后门攻击方法。

Jan, 2023

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

谨防中毒词嵌入：探究 NLP 模型嵌入层的漏洞

该论文揭示了自然语言处理（NLP）模型的安全威胁，即后门攻击。通过修改一个单词嵌入向量，攻击者可以在没有损失准确率的情况下破坏模型的行为，同时引发了一个特定的触发词。实验结果表明，该方法更高效、更隐秘，可提高 NLP 模型的安全意识。

Mar, 2021

自然语言处理中后门攻击强度的评估方法重构

该研究介绍了一种新的指标 ASRD，用于评估后门攻击的真实攻击能力，并提出了 Trigger Breaker，可以有效地防御隐身后门攻击。

Jan, 2022

数据高效后门攻击

本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法，从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。

Apr, 2022