May, 2022

确保因果干预对自然语言攻击的稳健性证明

TL;DR本文从因果的角度探讨了深度学习模型在面对对抗性示例时的容易受到攻击的漏洞,提出了一种新的对抗性攻击防御框架 CISS,该框架采用平滑的方式在潜在的语义空间中学习因果效应,并在深层次结构的规模上实现了鲁棒性,并避免了为特定攻击定制噪声的繁琐构建。实验证明该框架能够抵御词语替代攻击,即使是强化了未知攻击算法的扰动。例如,对于 YELP,CISS 在认证鲁棒性方面超越亚军 6.7%,并在综合了语法攻击之后达到 79.4%的经验性鲁棒性。