评估自然语言处理模型的神经元解释方法

Jan, 2023

评估自然语言处理模型的神经元解释方法

Evaluating Neuron Interpretation Methods of NLP Models

Yimin Fan, Fahim Dalvi, Nadir Durrani, Hassan Sajjad

TL;DR该研究提出了一种评估框架，用于比较不同神经元解释方法，通过该框架，可以评估任何新的神经元解释方法，通过与其他大多数方法的兼容性来评估其性能。

Abstract

neuron interpretation has gained traction in the field of interpretability, and have provided fine-grained insights into what a model learns and how language knowledge is distributed amongst its different compone

neuron interpretation evaluation benchmark language knowledge ground truth datasets neuron analysis method

发现论文，激发创造

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

适用于命名实体识别的可解释性多数据集评估

本文提出了一种可解释的评估方法，用于对自然语言处理任务中的命名实体识别进行分析，以帮助读者更好地理解不同模型及其相对优劣之处。通过将我们的分析工具提供给其他研究人员，我们希望能推动这一领域的进步。

Nov, 2020

评估神经语言模型的显著性方法

本文通过对 NLP 模型的神经语言进行全面的定量评估，从两个方面评价了预测解释的质量：可信度和可信度。通过评估，我们发现，如何在给定相同模型和预测时，不同的显着性方法经常在解释上产生分歧。作者建议部署此类方法到神经语言模型的未来工作，应该在得出结果之前仔细验证其解释。

Apr, 2021

从神经元到图形：大规模解释语言模型神经元

该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为，并将其转化为可解释的图形表示，从而提高大型语言模型的可解释性和安全性。

May, 2023

关于可证实解释性研究的探索

本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。

Oct, 2020

自然语言处理中的模型解释的敏感性和稳定性

该研究提出两个衡量 NLP 模型判断过程解释准确性的新标准，即灵敏度和稳定性，并引入了一种新的基于对抗性鲁棒性的解释方法，证明了其在相应标准下的优越性。还应用该方法和度量标准在依赖分析中。

Apr, 2021

机器学习方法应用于神经影像的可解释性

本篇论文介绍了最常见的解释性方法和评估可靠性的指标，并探讨了它们在神经影像学方面的应用和基准测试。

Apr, 2022

分析深度自然语言处理模型中的单个神经元，犹如沙漠中的一粒沙

研究者提出用于解释神经网络在自然语言处理任务中的单个特定维度及其与模型性能的相关性分析的方法，并公开了工具箱。

Dec, 2018

神经语言处理中的分析方法：一项调查

本综述论文介绍了自然语言处理领域中使用神经网络模型替代传统系统的进展情况及其分析方法，并根据主要研究趋势进行分类，指出现有限制，并提出未来工作的潜在方向。

Dec, 2018

利用神经元冗余分析解释预训练源代码模型

本文提出了一种基于神经元水平的方法来解决神经代码智能模型可解释性的问题，通过去除那些高度相似或任务不相关的神经元，利用熟练的分类器评估重要的神经元，发现在我们的代码智能任务中超过 95％的神经元都是冗余的，并可被删除而不会在准确性方面造成重大损失，我们进一步追踪了重要神经元的个体及子集从而发现了负责特定代码属性的 ' 数字 '，' 字符串 ' 和更高层次的 'text' 神经元，这些可以用于修正基于错误信号的预测神经元，并且重要神经元的分布和浓度可以作为任务复杂度的量度。

May, 2023