通过查看模型解释来解释预测不确定性
通过人为引入噪音来模拟文本输入的认知不确定性,在大规模实证研究中,我们插入不同级别的噪音扰动,并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响,而掩饰却有极大影响。我们发现在训练过程中暴露噪声时,高不确定性不一定意味着解释的可信度低;两个度量之间的相关性可能是适度正向的,这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外,当预测和认知不确定性度量过于自信时,对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性,同时仍显示出模型特定的性能模式;然而,这种现象仅限于较小的基于 Transformer 的语言模型。
Feb, 2024
可解释性人工智能为复杂的机器学习黑盒子带来了透明度,从而能够识别模型在预测中使用的特征。我们的研究揭示出预测不确定性主要由涉及单个特征或特征之间的乘积相互作用的二阶效应所主导。我们提出了一个基于这些二阶效应的预测不确定性解释方法。我们的方法在计算上简化为对一系列一阶解释进行简单的协方差计算。我们的方法通常适用,可以将常见的归因技术(LRP、梯度 × 输入等)转化为强大的二阶不确定性解释器,我们称之为 CovLRP、CovGI 等。我们通过系统的定量评估证明了我们的方法产生解释的准确性,并通过两个实际案例展示了我们方法的整体实用性。
Jan, 2024
研究在从低资源语言中采样的数据集上训练模型的情况下,通过多种方法评估和分析神经分类器的预测置信度,发现尽管使用预训练模型和集成模型可以获得最佳结果,但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析,发现模型的总不确定性在很大程度上受到数据不确定性的影响,并提供了开源的软件包。
Oct, 2022
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
本文提出了一种可解释性的机器学习算法解释技术 ——LIME,基于该技术可以在一个可解释且可靠的小规模模型内对任何分类器的预测进行解释,从而提高了可信度和可理解性,实现了对于信任度的估计及诸多信任场景的适用性。
Feb, 2016
本论文提出了新方法来研究自然语言处理(NLP)任务中表征模型和数据不确定性的好处,通过在卷积和循环神经网络模型上的实证实验,展示了明确建模不确定性不仅有利于测量输出置信水平,而且对于提升各种 NLP 任务中的模型表现也是有用的。
Nov, 2018
机器学习模型中的不确定性是一个关键特征,尤其在神经网络中更为重要,因其倾向于过于自信。本研究提出了一个通用的不确定性框架,将不确定性估计定位为可解释的人工智能技术,并引入分类与拒绝机制以减少错误分类,同时应用于教育数据挖掘中的神经网络案例研究,提高模型在操作研究中决策任务中的可信度与行动性。
Mar, 2024
通过设计一种新颖的不确定性建模框架,本研究旨在解决深度神经网络在解释性方面的挑战,实现分布无关的不确定性建模,并在生成的解释层中分配与最终预测分配给予的信心值间建立联系,同时在高级解释基础上产生高效和有效的预测集。理论分析和大量的实验评估证明了该不确定性框架的有效性。
Jan, 2024