DARCY：甜如蜜的兔子洞：使用蜜罐检测通用触发器的对抗攻击

ACLNov, 2020

DARCY：甜如蜜的兔子洞：使用蜜罐检测通用触发器的对抗攻击

A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal Trigger's Adversarial Attacks

Thai Le, Noseong Park, Dongwon Lee

TL;DR本篇论文提出了一种基于引诱陷阱的防御机制 DARCY，用于对抗最近提出的文本对抗攻击方法 Universal Trigger (简称 UniTrigger)。通过向神经网络模型注入多个引诱陷阱，DARCY 能够在多个公共数据集上检测到 UniTrigger 的攻击，并保持 1% 内的清洁输入预测准确性。

Abstract

The universal trigger (UniTrigger) is a recently-proposed powerful adversarial textual attack method. Utilizing a learning-based mechanism, UniTrigger generates a fixed phrase that, when added to any benign inputs, can drop the prediction accuracy of a textual →

universal trigger adversarial attack honeypot neural network defense framework

发现论文，激发创造

使用蜜罐捕获神经网络上的对抗攻击

我们在此论文中探讨一种新的防御机制来保护深度神经网络模型，该机制引入了陷阱门，通过激励攻击者搜索对抗性示例，它形成了防御系统，并证明了该防御系统能够避免最先进的攻击，并在分类方面几乎没有影响。

Apr, 2019

UNICORN：统一后门触发反转框架

本篇论文提出了一种基于 trigger 反演的方法去识别和理解 DNN 模型中嵌入的恶意行为，设计并分析了注入不同空间中的触发器以及反演问题，最后通过一个名为 UNICORN 的原型实现了通用有效的 DNN 反演方案。

Apr, 2023

使用自然触发器的通用文本对抗攻击

利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术，对现代文本分类器进行了对抗攻击，生成的词组比先前模型更接近自然的英语短语，并能在被加入到输入文本后成功混淆分类器，并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到，并推动防御技术的发展。

May, 2020

蜜罐防御的部分破解以捕获对抗性攻击

本文研究了一种在神经网络中注入 “蜜罐” 以检测敌对攻击的防御机制，并通过降低检测真正阳性率至 0％和检测 AUC 至 0.02 破坏了其基线版本防御。原始论文的作者在 CCS'20 论文中修正了这种攻击，为了促进更多的研究，我们在文中提供了完整的攻击过程记录。

Sep, 2020

通用对抗触发器针对自然语言处理的攻击与分析

本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers)，使用梯度导向的搜索过程寻找跨任务短小的触发序列，并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下，对模型的全局行为也提供了一种分析方法。

Aug, 2019

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023

UOR：预训练语言模型的通用后门攻击

本论文提出了一种新的后门攻击方法 UOR，通过将手动选择转化为自动优化，定义了毒化监督对比学习，使用梯度搜索选择适当的触发词并针对不同 PLMs 和词汇表进行自适应，取得了比手动方法更好的攻击表现，并证明了该方法的普适性。

May, 2023

无声杀手：优化后门触发器从而实现隐蔽而强大的数据投毒攻击

利用数据污染，添加即便微小干扰也能改变模型原本判断的样本分类，且添加的干扰本身难以被发现，同时在效率上有所提升的神经网络后门攻击方法。

Jan, 2023

通用后门攻击

训练大规模数据集很昂贵，因此一种模型仅训练一次并多次使用。我们展示了一种更高效的通用数据中毒攻击方法，通过少量的中毒样本，可以控制从任意源类到任意目标类的误分类。我们的触发器利用了一种称为跨类中毒可转移性的现象，从而使模型对其他类别的触发器更易受攻击。我们通过仅中毒训练数据集的 0.15％来控制高达 6,000 个类的模型的有效性和鲁棒性。

Nov, 2023

生成具有标签内聚力和良好形式的对抗性主张

本文主要研究如何生成对于事实核查系统具有对抗性的攻击，使其保持着地面事实的意义和语义的有效性，为此采用了 HotFlip 攻击算法与条件语言模型相结合的方法，生成出了一批具有方向性和语义有效性的攻击。

Sep, 2020