评估本地解释的忠实度框架

Feb, 2022

Framework for Evaluating Faithfulness of Local Explanations

Sanjoy Dasgupta, Nave Frost, Michal Moshkovitz

TL;DR本文研究了解释系统与预测模型的准确性。通过引入两个属性：一致性和充分性，并介绍了表示它们持有程度的量化度量方式。实验表明这些措施取决于测试数据的分布，并提供了估计器和样本复杂度界限以确定黑盒解释系统的准确性。

Abstract

We study the faithfulness of an explanation system to the underlying prediction model. We show that this can be captured by two properties, consi

explanation system prediction model consistency sufficiency black-box

发现论文，激发创造

好看但缺乏忠诚：通过趋势测试理解局部解释方法

通过对传统的可解释性测试进行评估，发现在复杂数据方面存在随机优势问题。为了解决这个问题，我们提出了三种基于趋势的可信度测试，并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法，从中获得了前所未有的发现，启发了未来的研究。同时，可信度测试也极大地提高了下游任务的效果。例如，配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。

Sep, 2023

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

基于逆向推理的合理性的自然语言推理中具体例子的逻辑可满足性

本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证，无需额外的训练验证模型。

May, 2022

模型解释性方法忠实度度量的比较研究

在研究机器学习模型内部推理过程的解释方法越来越受到关注的今天，我们发现不同的忠诚度评估指标在比较不同的解释时显示出冲突的偏好，因此我们旨在对广泛采用的忠诚度指标进行全面而比较的研究，并引入两个评估维度：诊断性和时间复杂性，根据实验结果，我们发现足够性和综合性指标具有更高的诊断性和更低的时间复杂度。

Apr, 2022

忠诚度度量中的不一致问题

解释性人工智能（XAI）领域旨在解释黑盒机器学习模型的工作方式，而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性，使得使用者在选择最忠实的解释时感到困惑。

Nov, 2023

评估基于显著性的解释方法的整体敏感性

为了解决生成 “黑盒” 深度学习模型准确解释的需要，本论文提出了一种基于模型不可知的、敏感性敏感度和信任度为核心的评估方法。该方法通过对多种卷积神经网络解释方法进行比较来验证其可行性，并探讨了敏感性与信任度的关系及该方法在其他领域的应用

Jun, 2023

基于概念的解释的可读性和忠实度评估

使用概念可信度和可读性作为评估概念解释的方法，通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估，验证并选择概念评估措施。

Apr, 2024

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022