Oct, 2020

基于梯度的 NLP 模型分析易受操控

TL;DR本文研究了神经网络自然语言处理模型的可解释性,特别是基于梯度的分析方法。我们发现,这些分析方法的梯度很容易被劫持,具有误导性。结合多项自然语言处理任务的实验结果,本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。