Jun, 2022

NLP 模型的解释方法稳健性

TL;DR本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。