ParaFuzz: NLP 中一种基于可解释性技术的检测有毒样本的方法

Aug, 2023

ParaFuzz: NLP 中一种基于可解释性技术的检测有毒样本的方法

ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP

Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen...

TL;DR本研究提出了一种创新的测试时毒样本检测框架，依靠模型预测的可解释性，并关注输入的语义含义，旨在解决当前检测机制对于隐蔽型后门攻击（如基于风格的攻击）的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务，并结合模糊测试技术发现最佳的改写提示来有效消除触发词，同时保持输入语义，实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法（包括 STRIP，RAP 和 ONION）的准确率和召回率。

Abstract

backdoor attacks have emerged as a prominent threat to natural language processing (NLP) models, where the presence of specific triggers in the input can lead poisoned models to misclassify these inputs to predetermined target classes. Current detection mechanisms are limited by their

backdoor attacks nlp models test-time poisoned sample detection semantic meaning paraphrase prompts

发现论文，激发创造

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

无声杀手：优化后门触发器从而实现隐蔽而强大的数据投毒攻击

利用数据污染，添加即便微小干扰也能改变模型原本判断的样本分类，且添加的干扰本身难以被发现，同时在效率上有所提升的神经网络后门攻击方法。

Jan, 2023

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

透过虚假相关性的镜头缓解后门污染攻击

该论文研究了当现代自然语言处理模型使用大量不受信任的数据集进行训练时，如何减少后门毒化攻击，提出了利用防止虚假相关的方法进行防范，在与现有防御方法进行比较时，该方法能够显著减少后门攻击的成功率，并且在插入攻击的情况下，提供了近乎完美的防御。

May, 2023

探索数据选择对后门攻击中的毒性效果的影响

本研究重点改进了从样本选择角度提高后门攻击的注入效率，并提出了一种名为改进过滤和更新策略（FUS++）的选择策略，实验证明该策略的攻击性能显著高于随机选择的攻击性能。

Oct, 2023

数据高效后门攻击

本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法，从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。

Apr, 2022

基于毒化的任意目标标签带正触发器的后门攻击

通过利用纯净数据集训练的网络作为触发器生成器，该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击（PPT），该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。

May, 2024