针对 NLP 模型的最优健壮性解释保证

IJCAIMay, 2021

针对 NLP 模型的最优健壮性解释保证

On Guaranteed Optimal Robust Explanations for NLP Models

Emanuele La Malfa, Agnieszka Zbrzezny, Rhiannon Michelmore, Nicola Paoletti, Marta Kwiatkowska

TL;DR本文提出了基于绑架式解释的机器学习方法，为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数，例如解释长度，优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性，该方法通过内隐命中集和最大通用子集两种解法得出结果，并可以配置不同的扰动集来检测预测结果的偏见，提高 NLP 解释框架的效果。最后，文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估，并展示了该框架的有效性。

Abstract

We build on abduction-based explanations for ma-chine learning and develop a method for computing local explanations for neural network models in natural language processing (NLP). Our explanations comprise a sub

neural network models natural language processing local explanations prediction invariance algorithmic improvements

发现论文，激发创造

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

基于绑架的机器学习模型解释

本论文提出了一种无约束解决方案，利用归纳推理计算任何机器学习模型的解释，验证了所提出方法的可伸缩性和计算出的解释的质量。

Nov, 2018

探索关系抽取中的自动扰动自然语言解释

本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性，并发现即使是完全被破坏的解释，也仍有助于提供额外的上下文空间，从而取得与标注解释相当的结果，但计算效率显著提高了 20-30 倍。

May, 2023

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

面向可解释性自然语言处理：文本分类的生成式解释框架

本文提出了一个新的生成式解释框架，学习同时进行分类决策和生成细粒度解释，实验证明该方法可以生成简明的解释，超过所有基线系统。

Nov, 2018

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

模型无关 NLP 可解释性中解释的粒度

通过对复杂的基于 BERT 的分类器使用基于段落的方法，本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性，大大提高了基准分类任务的解释保真度。

Dec, 2020

自然语言处理深度模型的可解释性研究

本篇综述研究了在 NLP 领域中各种 ExplainableAI 方法的模型透明度，解释能力和评估方法，并将其分为三个层面：输入层（词嵌入），处理层（模型内部运算），输出层（模型判定），并提出了未来的研究方向。

Oct, 2022

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023