ACLNov, 2020
DARCY:甜如蜜的兔子洞:使用蜜罐检测通用触发器的对抗攻击
A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal Trigger's Adversarial Attacks
Thai Le, Noseong Park, Dongwon Lee
TL;DR本篇论文提出了一种基于引诱陷阱的防御机制 DARCY,用于对抗最近提出的文本对抗攻击方法 Universal Trigger (简称 UniTrigger)。通过向神经网络模型注入多个引诱陷阱,DARCY 能够在多个公共数据集上检测到 UniTrigger 的攻击,并保持 1% 内的清洁输入预测准确性。