高效触发词插入
本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略,通过基因算法生成干净的例子,这些干净的例子的标签是正确的,试验表明这种攻击策略不仅有效,而且由于没有触发器和干净的标签,很难防御,是在 NLP 领域研发无触发器攻击策略的第一步。
Nov, 2021
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021
本研究提出了一种创新的测试时毒样本检测框架,依靠模型预测的可解释性,并关注输入的语义含义,旨在解决当前检测机制对于隐蔽型后门攻击(如基于风格的攻击)的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务,并结合模糊测试技术发现最佳的改写提示来有效消除触发词,同时保持输入语义,实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法(包括 STRIP,RAP 和 ONION)的准确率和召回率。
Aug, 2023
利用数据污染,添加即便微小干扰也能改变模型原本判断的样本分类,且添加的干扰本身难以被发现,同时在效率上有所提升的神经网络后门攻击方法。
Jan, 2023
通过利用训练动态识别有毒样本并进行标签传播以提高召回率,我们提出了一种新颖的防御机制,有效降低了多种后门攻击的成功率,并保持了对干净测试集高准确度的分类。
May, 2024
本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。
May, 2023
该论文揭示了自然语言处理(NLP)模型的安全威胁,即后门攻击。通过修改一个单词嵌入向量,攻击者可以在没有损失准确率的情况下破坏模型的行为,同时引发了一个特定的触发词。实验结果表明,该方法更高效、更隐秘,可提高 NLP 模型的安全意识。
Mar, 2021
本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法,从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。
Apr, 2022