关于大型语言模型的可解释性以及基于词级的一元一阶合理性假设的问题

AAAIMar, 2024

关于大型语言模型的可解释性以及基于词级的一元一阶合理性假设的问题

A Question on the Explainability of Large Language Models and the Word-Level Univariate First-Order Plausibility Assumption

PDF

Jeremie Bogaert, Francois-Xavier Standaert

TL;DR大型语言模型的解释对其训练中的随机性具有敏感性，因此需要对此敏感性进行描述。本文提出一种描述方法，并指出基于特征的简单模型的解释比基于 Transformer 的模型表现更好，同时还讨论了通过改进信号和噪音的定义来捕捉更复杂的解释和分析方法的可能性，但也对这种改进对读者的可信度产生了质疑。

Abstract

The explanations of large language models have recently been shown to be sensitive to the randomness used for their training, creating a need to characterize this sensitivity. In this paper, we propose a characte

large language models explanations signal-to-noise ratio feature-based models transformer models

发现论文，激发创造

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

大型语言模型的自然语言解释的不确定性量化

在这项研究中，我们尝试量化大型语言模型（LLM）解释的不确定性。为此，我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”，用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计，而探测不确定性的估计与解释的忠实度相关，较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察，有助于更广泛地探讨基础模型的可靠性。

Nov, 2023

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

研究模型不稳定性对解释和不确定性的影响

通过人为引入噪音来模拟文本输入的认知不确定性，在大规模实证研究中，我们插入不同级别的噪音扰动，并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响，而掩饰却有极大影响。我们发现在训练过程中暴露噪声时，高不确定性不一定意味着解释的可信度低；两个度量之间的相关性可能是适度正向的，这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外，当预测和认知不确定性度量过于自信时，对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性，同时仍显示出模型特定的性能模式；然而，这种现象仅限于较小的基于 Transformer 的语言模型。

Feb, 2024

揭示二阶效应以解释预测的不确定性

可解释性人工智能为复杂的机器学习黑盒子带来了透明度，从而能够识别模型在预测中使用的特征。我们的研究揭示出预测不确定性主要由涉及单个特征或特征之间的乘积相互作用的二阶效应所主导。我们提出了一个基于这些二阶效应的预测不确定性解释方法。我们的方法在计算上简化为对一系列一阶解释进行简单的协方差计算。我们的方法通常适用，可以将常见的归因技术（LRP、梯度 × 输入等）转化为强大的二阶不确定性解释器，我们称之为 CovLRP、CovGI 等。我们通过系统的定量评估证明了我们的方法产生解释的准确性，并通过两个实际案例展示了我们方法的整体实用性。

Jan, 2024

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

使用高影响概念解释语言模型的预测

本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

May, 2023

概率逻辑编程中的解释解释

基于可解释的概率逻辑编程和查询驱动的推理机制，本研究提出一种解释解释的方法，以使黑盒人工智能系统的解释更易理解。

Jan, 2024

测量数据统计对语言模型 “事实性” 预测的因果影响

通过提供一种语言描述训练数据如何影响预测的因果框架，我们研究了提取预训练语言模型中事实知识的问题。研究表明，诸如共现计数等简单数据统计确实会影响预测结果，暗示此类模型依赖于表浅启发式。此结果强调了研究数据集和了解 NLP 模型的因果性的重要性。

Jul, 2022