通过输入边际化解释自然语言处理模型

EMNLPOct, 2020

通过输入边际化解释自然语言处理模型

Interpretation of NLP models through input marginalization

Siwon Kim, Jihun Yi, Eunji Kim, Sungroh Yoon

TL;DR本研究提出了一种解决现有解释方法所引发的超出分布问题的方法，其通过将每个标记边缘化来解释情感分析和自然语言推理等 NLP 模型的预测结果。

Abstract

To demystify the "black box" property of deep neural networks for natural language processing (NLP), several methods have been proposed to interpret their predictions by measuring the change in prediction probability after erasing each token of an input. Since existing methods replace

deep neural networks natural language processing interpretation methods out-of-distribution sentiment analysis

发现论文，激发创造

你需要在可能的 tokenization 上做边缘化吗？

本文研究自回归语言模型中计算字符序列概率的方法，提出了一种基于重要性采样的算法估计边缘概率，并在一系列尖端模型和数据集上进行比较，结果表明在大多数情况下，对边缘化的忽略导致的对数似然差异小于 0.5％，但对于长且复杂的数据则更加明显。

Jun, 2023

基于分词边际概率评估语言模型

本文研究神经语言模型的 tokenization 对模型性能评估的作用，并提出用边缘似然进行评估。在使用采样的不同估算器比较后，发现边缘困惑度可以更好地反应模型性能，特别是在领域外数据中能表现出更好的鲁棒性。此外，通过测量 tokeniser 信息熵，结果还显示，边缘困惑度与 tokeniser 不确定性之间存在联系。最后，本文讨论了研究结果对语言模型训练和评估的一些影响。

Sep, 2021

神经模型的病态使解释困难

通过 input reduction 方法研究了神经网络模型的缺陷，发现在面对异常数据时大多数模型都表现出困难并难以解释，提出了一种 fine-tuning 方法，通过提高模型的输出熵，增强模型的可解释性。

Apr, 2018

通过表示擦除理解神经网络

本文提出了一种使用擦除来解释神经模型决策的通用方法，通过分析和比较擦除输入词向量的不同部分，中间隐藏层的不同单元或输入词的不同方法，来评估和解释模型判断的影响。研究表明，该方法不仅可以提供清晰的神经模型决策解释，还可以为神经模型的错误分析提供一种方法。

Dec, 2016

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

缺失值处理的简单方法：Knockout

通过输入掩蔽的方式，我们提出了一种高效的方法来同时学习使用完整输入的条件分布和使用部分输入的边缘分布，从而帮助单个模型有效地学习条件分布和边缘分布。

May, 2024

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

黑匣子 NLP 模型的解释：一项调查

本文提出了一种基于中心极限定理的假设检验框架以确定所需扰动点的数量，从而保障解释稳定性的方法 S-LIME，以解决黑箱模型的可解释性问题。对模拟数据集和实际数据集进行的实验表明了该方法的有效性。

Mar, 2022

深度自然语言处理中脆弱解释的扰动输入

本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法，结果表明，即使对少量单词进行更改，这些方法也可能变得不稳定和不可信。

Aug, 2021

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022