关于忠实性的理论：连续数据上可微分类器的忠实解释

May, 2022

关于忠实性的理论：连续数据上可微分类器的忠实解释

Towards a Theory of Faithfulness: Faithful Explanations of Differentiable Classifiers over Continuous Data

Nico Potyka, Xiang Yin, Francesca Toni

TL;DR重复研究 “忠实度” 在连续数据中的应用，提出了定量和定性忠实度的正式定义，并研究了定性和定量忠实度的局限性，还探索了这些方法在连续数据和可微分类器上的适用性。

Abstract

There is broad agreement in the literature that explanation methods should be faithful to the model that they explain, but faithfulness remains a rather vague term. We revisit faithfulness in the context of

faithfulness feature attribution methods continuous data qualitative faithfulness quantitative faithfulness

发现论文，激发创造

忠诚度度量中的不一致问题

解释性人工智能（XAI）领域旨在解释黑盒机器学习模型的工作方式，而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性，使得使用者在选择最忠实的解释时感到困惑。

Nov, 2023

对自然语言处理中可解释性度量的质疑：对谁忠诚？

该研究论文探讨了模型可解释性的常见方法，并指出了当前的可信度度量指标的局限性以及合理利用它们的关键考虑因素。

Aug, 2023

传统机器学习模型解释方法比较 Part 2：量化模型解释可信度及通过降维改善

本研究评估了多种特征排序方法的忠实度，并量化了限制相关特征对解释能力提高的影响，发现促进特征解释的方法在特征相关性降低后最具忠实度。

Nov, 2022

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022

构建学习的忠实理性化

提出了一种名为 FRESH 的简化模型解释方法，通过使用任意的特征重要性分数来导出二进制标签以训练提取器，再用提取器提供的片段训练独立分类器模块，从而构成可信解释，具有超越端到端方法的预测性能优势并更容易实现。

Apr, 2020

AttributionLab：在可控环境下的特征归因的可信度

设计 AttributionLab 环境用于测试特征归因方法的可靠性，并提供了一个控制实验室，用于研究特征归因方法、识别问题并提出潜在改进。

Oct, 2023

评估本地解释的忠实度框架

本文研究了解释系统与预测模型的准确性。通过引入两个属性：一致性和充分性，并介绍了表示它们持有程度的量化度量方式。实验表明这些措施取决于测试数据的分布，并提供了估计器和样本复杂度界限以确定黑盒解释系统的准确性。

Feb, 2022

规则、自解释和领域不变的 GNN 的忠诚度的利弊

当我们对图神经网络的预测进行解释时，准确可信的解释是至关重要的。我们发现现有的指标在可信度方面并不可替代，但它们可能对解释的重要属性具有系统性不敏感性，针对这些问题提出了解决方案。对于一类特定的图神经网络结构，追求完全准确可信的解释是没有意义的。与之不同的是，对于自解释和领域不变的模块化图神经网络结构，追求可信度并不会损害信息量，并且与非分布式泛化能力也有意想不到的联系。

Jun, 2024

关于时间概念漂移对模型解释的影响

研究模型训练数据时间跨度与目标数据不同（异步设置）时，时序变化如何影响模型解释正确性，发现不同方法的特征归因存在互相矛盾的行为，需要更多的指标来评估后期解释正确性。

Oct, 2022

朝着忠实可解释的自然语言处理系统迈进：我们应该如何定义和评估忠实性？

本文探讨了深度学习基础下的 NLP 模型识别问题，并呼吁更明确地区分不同标准，其中聚焦于 “忠实性” 标准。通过调查已有研究文献，将现有方法分为三种假设，并提供了具体指南来评估解释方法。最后，提出当前的 “忠实性” 定义是不真实的二元概念，呼吁使用更优选的渐进性概念。

Apr, 2020