NLP 模型的解释方法稳健性

Jun, 2022

Robustness of Explanation Methods for NLP Models

Shriya Atmakuri, Tejas Chheda, Dinesh Kandula, Nishant Yadav, Taesung Lee...

TL;DR本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Abstract

explanation methods have emerged as an important tool to highlight the features responsible for the predictions of neural networks. There is mounting evidence that many →

explanation methods neural networks text modality adversarial attack adversarial robustness

发现论文，激发创造

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

针对 NLP 模型的最优健壮性解释保证

本文提出了基于绑架式解释的机器学习方法，为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数，例如解释长度，优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性，该方法通过内隐命中集和最大通用子集两种解法得出结果，并可以配置不同的扰动集来检测预测结果的偏见，提高 NLP 解释框架的效果。最后，文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估，并展示了该框架的有效性。

May, 2021

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

稳定和鲁棒解释性的聚合方法

本文主要研究神经网络的解释方法，并通过对多种解释方法的组合与模型不确定性的降低，得到简洁而精确的聚合解释。同时，论文对解释的鲁棒性进行了研究，提出了相对于单独的解释方法，聚合解释更加能够抵御对抗攻击。

Mar, 2019

探索关系抽取中的自动扰动自然语言解释

本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性，并发现即使是完全被破坏的解释，也仍有助于提供额外的上下文空间，从而取得与标注解释相当的结果，但计算效率显著提高了 20-30 倍。

May, 2023

基于人工标注的文本分类解释方法评估

本文探讨了一些适用于 CNN 文本分类的模型无关和模型特定解释方法，并进行了三次人类评估来揭示这些方法揭示模型行为、证明模型预测和帮助人类调查不确定预测的不同效果。结果表明，这些方法具有不同的性质，并且可以为每个目的提供帮助。

Aug, 2019

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

防御对解释的篡改

本文提出了一种新的训练方案 —— 用对抗训练解释，以提高模型对不同解释方法的内部解释稳定性，并在实验中展示了它的有效性，包括提高对抗训练的效果和平滑解释，此外还发现解释稳定性与对抗攻击风险息息相关。

Nov, 2021

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021