ACLNov, 2020

DARCY:甜如蜜的兔子洞:使用蜜罐检测通用触发器的对抗攻击

TL;DR本篇论文提出了一种基于引诱陷阱的防御机制 DARCY,用于对抗最近提出的文本对抗攻击方法 Universal Trigger (简称 UniTrigger)。通过向神经网络模型注入多个引诱陷阱,DARCY 能够在多个公共数据集上检测到 UniTrigger 的攻击,并保持 1% 内的清洁输入预测准确性。