研究模型不稳定性对解释和不确定性的影响

Feb, 2024

研究模型不稳定性对解释和不确定性的影响

Investigating the Impact of Model Instability on Explanations and Uncertainty

Sara Vera Marjanović, Isabelle Augenstein, Christina Lioma

TL;DR通过人为引入噪音来模拟文本输入的认知不确定性，在大规模实证研究中，我们插入不同级别的噪音扰动，并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响，而掩饰却有极大影响。我们发现在训练过程中暴露噪声时，高不确定性不一定意味着解释的可信度低；两个度量之间的相关性可能是适度正向的，这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外，当预测和认知不确定性度量过于自信时，对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性，同时仍显示出模型特定的性能模式；然而，这种现象仅限于较小的基于 Transformer 的语言模型。

Abstract

explainable ai methods facilitate the understanding of model behaviour, yet, small, imperceptible perturbations to inputs can vastly distort explanations. As these explanations are typically evaluated holistically, before model deployment, it is difficult to assess when a particular ex

explainable ai uncertainty explanation quality epistemic uncertainty perturbation

发现论文，激发创造

通过查看模型解释来解释预测不确定性

提取存在负面贡献性的词语可以解释使用预训练语言模型预测不确定性，这是对于模型决策辅助的重要补充，实验证明这项技术在模型解释和人类理解模型预测行为方面不可或缺。

Jan, 2022

不确定性解释性：神经网络的可信决策

机器学习模型中的不确定性是一个关键特征，尤其在神经网络中更为重要，因其倾向于过于自信。本研究提出了一个通用的不确定性框架，将不确定性估计定位为可解释的人工智能技术，并引入分类与拒绝机制以减少错误分类，同时应用于教育数据挖掘中的神经网络案例研究，提高模型在操作研究中决策任务中的可信度与行动性。

Mar, 2024

表征代理校准及消除标注员和数据偏差的不确定性来源

本文提出了一种简单的 Monte Carlo Dropout 算法，可以显式地量化神经网络输出的不确定性，利用此种不确定性可以解释模型复杂现象、如情感识别，此外也可以用于辨别主观标记样本和数据偏差的问题。

Sep, 2019

神经网络中基于梯度的解释的不确定性量化

本文提出一个流程，通过结合不确定性估计方法和解释方法来确定神经网络解释的不确定性，使用该流程对 CIFAR-10、FER + 和加利福尼亚房屋数据集生成解释分布，并通过计算这些分布的变异系数来评估解释的置信度，结果表明使用引导反向传播生成的解释具有较低的不确定性，并计算修改后的像素插入 / 删除指标来评估生成解释的质量。

Mar, 2024

揭示二阶效应以解释预测的不确定性

可解释性人工智能为复杂的机器学习黑盒子带来了透明度，从而能够识别模型在预测中使用的特征。我们的研究揭示出预测不确定性主要由涉及单个特征或特征之间的乘积相互作用的二阶效应所主导。我们提出了一个基于这些二阶效应的预测不确定性解释方法。我们的方法在计算上简化为对一系列一阶解释进行简单的协方差计算。我们的方法通常适用，可以将常见的归因技术（LRP、梯度 × 输入等）转化为强大的二阶不确定性解释器，我们称之为 CovLRP、CovGI 等。我们通过系统的定量评估证明了我们的方法产生解释的准确性，并通过两个实际案例展示了我们方法的整体实用性。

Jan, 2024

探索关系抽取中的自动扰动自然语言解释

本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性，并发现即使是完全被破坏的解释，也仍有助于提供额外的上下文空间，从而取得与标注解释相当的结果，但计算效率显著提高了 20-30 倍。

May, 2023

通过输入不确定性理解深度神经网络

利用轻量级概率网络，将预测不确定性纳入灵敏度分析以及通过不确定性分解的新方法进行模型解释，最终提高了模型的鲁棒性和推广能力，并从输入域的不确定性解释预测不确定性，从而提供了验证和解释深度学习模型的新方法。

Oct, 2018

VOICE：用于量化神经网络解释不确定性的诱导式对比解释的方差

该论文可视化和量化基于梯度的神经网络后续可视化解释的预测不确定性，指出不确定性降低了解释的可信度，提出了一种插件方法以可视化和量化任何基于梯度的解释技术剩余的预测不确定性，并通过两个数据集、四种解释技术和六种神经网络架构对提出的观察进行了支持。

Jun, 2024

基于梯度的不确定性归因用于可解释的贝叶斯深度学习

提出了可解释和可操作的贝叶斯深度学习方法，不仅能够执行准确的不确定性量化，而且还能解释不确定性，识别其源，并提出减少不确定性影响的策略。

Apr, 2023

解读神经自然语言处理模型对文本扰动的鲁棒性

研究现代自然语言处理模型中对于不同的输入扰动如何表现更差，进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。

Oct, 2021