Apr, 2022

基于残留的自然语言对抗攻击检测

TL;DR本文介绍了如何将图像设计的策略移植到自然语言处理(NLP)领域,发现传统的图像领域的检测器并不适用于 NLP 领域,并提出一种基于文本嵌入的检测器来识别自然语言处理领域的对抗性样本。该检测器在许多任务上的表现优于传统的移植自图像领域的检测器和最新的 NLP 特定检测器。