ACLMar, 2022

用于对抗性检测的输入特定注意力子网络

TL;DR本文提出了一种利用自注意力头来进行对抗检测的方法,在 10 个 NLU 数据集上通过构建输入特定的自注意力子网络并提取三个特征来鉴别真实和对抗性样本,相对于当前最先进的技术,对 BERT 编码器的对抗检测准确度明显提高(超过 7.5%),并证明了该方法适用于大型模型以及对抗样本数量较少的情况。