EMNLPAug, 2021
深度自然语言处理中脆弱解释的扰动输入
Perturbing Inputs for Fragile Interpretations in Deep Natural Language Processing
Sanchit Sinha, Hanjie Chen, Arshdeep Sekhon, Yangfeng Ji, Yanjun Qi
TL;DR本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法,结果表明,即使对少量单词进行更改,这些方法也可能变得不稳定和不可信。