本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力,其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣,希望这个基准可以促进建立值得信赖的系统的研究。
May, 2022
本文提出了一种可解释的评估方法,用于对自然语言处理任务中的命名实体识别进行分析,以帮助读者更好地理解不同模型及其相对优劣之处。通过将我们的分析工具提供给其他研究人员,我们希望能推动这一领域的进步。
Nov, 2020
本文通过对 NLP 模型的神经语言进行全面的定量评估,从两个方面评价了预测解释的质量:可信度和可信度。通过评估,我们发现,如何在给定相同模型和预测时,不同的显着性方法经常在解释上产生分歧。作者建议部署此类方法到神经语言模型的未来工作,应该在得出结果之前仔细验证其解释。
Apr, 2021
该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为,并将其转化为可解释的图形表示,从而提高大型语言模型的可解释性和安全性。
May, 2023
本文介绍了深度神经网络的可解释性研究及其方法,指出目前的方法存在的局限和风险,并提出了以可证伪性为核心的新的研究框架,目的是为了产生更具意义和可靠的可解释性方法。
Oct, 2020
该研究提出两个衡量 NLP 模型判断过程解释准确性的新标准,即灵敏度和稳定性,并引入了一种新的基于对抗性鲁棒性的解释方法,证明了其在相应标准下的优越性。还应用该方法和度量标准在依赖分析中。
本篇论文介绍了最常见的解释性方法和评估可靠性的指标,并探讨了它们在神经影像学方面的应用和基准测试。
Apr, 2022
研究者提出用于解释神经网络在自然语言处理任务中的单个特定维度及其与模型性能的相关性分析的方法,并公开了工具箱。
Dec, 2018
本综述论文介绍了自然语言处理领域中使用神经网络模型替代传统系统的进展情况及其分析方法,并根据主要研究趋势进行分类,指出现有限制,并提出未来工作的潜在方向。
本文提出了一种基于神经元水平的方法来解决神经代码智能模型可解释性的问题,通过去除那些高度相似或任务不相关的神经元,利用熟练的分类器评估重要的神经元,发现在我们的代码智能任务中超过 95%的神经元都是冗余的,并可被删除而不会在准确性方面造成重大损失,我们进一步追踪了重要神经元的个体及子集从而发现了负责特定代码属性的 ' 数字 ',' 字符串 ' 和更高层次的 'text' 神经元,这些可以用于修正基于错误信号的预测神经元,并且重要神经元的分布和浓度可以作为任务复杂度的量度。