模型无关 NLP 可解释性中解释的粒度

KDDDec, 2020

模型无关 NLP 可解释性中解释的粒度

On the Granularity of Explanations in Model Agnostic NLP Interpretability

Yves Rychener, Xavier Renard, Djamé Seddah, Pascal Frossard, Marcin Detyniecki

TL;DR通过对复杂的基于 BERT 的分类器使用基于段落的方法，本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性，大大提高了基准分类任务的解释保真度。

Abstract

Current methods for black-box nlp interpretability, like LIME or SHAP, are based on altering the text to interpret by removing words and modeling the Black-Box response. In this paper, we outline limitations of this approach when using complex →

black-box nlp interpretability bert-based classifiers segment-based approach elementary building blocks sentences

发现论文，激发创造

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

黑匣子 NLP 模型的解释：一项调查

本文提出了一种基于中心极限定理的假设检验框架以确定所需扰动点的数量，从而保障解释稳定性的方法 S-LIME，以解决黑箱模型的可解释性问题。对模拟数据集和实际数据集进行的实验表明了该方法的有效性。

Mar, 2022

通过对话式解释探索 NLP 模型和数据集的 InterroLang

通过在 NLP 领域中使用具有自由文本理性化功能的对话系统，研究人员对 NLP 任务进行了改进，并通过评估模型性能和用户研究，证明了理性化和特征归因在解释模型行为方面的有效性。

Oct, 2023

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

生成语言模型的多层解释

我们提出了一个名为 MExGen 的通用框架，可以扩展文本分类中的扰动解释方法（如 LIME 和 SHAP）以应对生成语言模型的挑战，该框架可用于不同的归因算法，并通过标量化器将文本映射到实数处理文本输出，同时采用多层级方法处理长输入，通过从粗粒度到细粒度的方式专注于具有模型查询线性扩展的算法，并进行系统评估，结果表明我们的框架能够提供更本地准确的生成输出解释。

Mar, 2024

关于自然语言处理样本解释方法的效率、忠实度和语义评估

本论文提出一种在自然语言处理中，以任意文本序列作为解释单元以提高解释的可解释性、效率和忠实度的方法，该方法实现了一种带模型的忠实度保证的 Hessian-free 算法，并且提出了一种基于语义的评估度量，该度量可以更好地与人类对解释的判断相匹配。多个实际数据集的实证结果表明，相对于 Influence Function 或 TracIn 等解释技术，所提出的方法具有优越的性能。

Jun, 2021

文本处理与检索方法的可解释性：一项关键调查

本文全面调研了针对词嵌入、序列建模、注意力模块、Transformer、BERT 以及文档排名的机器学习和自然语言处理研究的可解释性和解释性方法，最后提出了未来的研究方向。

Dec, 2022

机器学习模型的本地可解释模型无关 Shap 解释

提出了一种称为 LIMASE 的局部可解释模型无关 Shap 说明法，该方法使用 Shapley 值来解释任何模型的预测，提供局部和全局可解释的解释，解决子模块优化问题，为地区解释带来见解，并在与内核解释器相比计算更快。

Oct, 2022

神经文本分类的分层解释

本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint，它可以自动生成按标签关联的话题的模型预测解释，实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当，而且生成的解释比其他可解释的神经文本分类器更符合模型预测，并且更易于被人类理解。

Feb, 2022

自然语言处理深度模型的可解释性研究

本篇综述研究了在 NLP 领域中各种 ExplainableAI 方法的模型透明度，解释能力和评估方法，并将其分为三个层面：输入层（词嵌入），处理层（模型内部运算），输出层（模型判定），并提出了未来的研究方向。

Oct, 2022