Jun, 2022

文本分类中的抗解释攻击

TL;DR本论文研究表明,文本分类器中存在易受干扰的解释方法,因此需要在应用于实际场景时伴随着文本分类器进行忠实和稳健的解释方法,以防止解释被局部且不可察觉的扰动所改变,TEF 是一种新颖的解释攻击算法,可以通过改变文本输入样本来显著改变常用解释方法的结果,但保持分类器的预测不变。我们对 5 个序列分类数据集进行了评估,考虑了三种 DNN 架构和每个数据集的三种变换器架构,发现所有模型和解释方法都容易受到 TEF 扰动的影响,这表明文本分类器中的解释非常脆弱。