EMNLPAug, 2021

深度自然语言处理中脆弱解释的扰动输入

TL;DR本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法,结果表明,即使对少量单词进行更改,这些方法也可能变得不稳定和不可信。