模型解释性方法忠实度度量的比较研究

ACLApr, 2022

模型解释性方法忠实度度量的比较研究

A Comparative Study of Faithfulness Metrics for Model Interpretability Methods

Chun Sik Chan, Huanqi Kong, Guanqing Liang

TL;DR在研究机器学习模型内部推理过程的解释方法越来越受到关注的今天，我们发现不同的忠诚度评估指标在比较不同的解释时显示出冲突的偏好，因此我们旨在对广泛采用的忠诚度指标进行全面而比较的研究，并引入两个评估维度：诊断性和时间复杂性，根据实验结果，我们发现足够性和综合性指标具有更高的诊断性和更低的时间复杂度。

Abstract

interpretation methods to reveal the internal reasoning processes behind machine learning models have attracted increasing attention in recent years. To quantify the extent to which the identified interpretations

interpretation methods machine learning models faithfulness evaluation metrics diagnosticity time complexity

发现论文，激发创造

忠诚度度量中的不一致问题

解释性人工智能（XAI）领域旨在解释黑盒机器学习模型的工作方式，而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性，使得使用者在选择最忠实的解释时感到困惑。

Nov, 2023

融入归因重要性以提高忠实度度量

本文提出了一个简单而有效的软擦除标准，用于计算特征归因方法的充分性和全面性，实验结果表明，相较于硬擦除标准，该方法更好地反映了预测的重要部分，适用于自然语言处理中的各种任务与不同特征归因方法。

May, 2023

对自然语言处理中可解释性度量的质疑：对谁忠诚？

该研究论文探讨了模型可解释性的常见方法，并指出了当前的可信度度量指标的局限性以及合理利用它们的关键考虑因素。

Aug, 2023

研究生成文本中细粒度引文评估：忠实度度量的比较分析

基于综合评估框架的结果显示，没有一个单一的度量标准在所有评估中始终优秀，揭示了细颗粒度支持评估的复杂性，因此我们提供了制定更有效度量标准的实践建议。

Jun, 2024

朝着忠实可解释的自然语言处理系统迈进：我们应该如何定义和评估忠实性？

本文探讨了深度学习基础下的 NLP 模型识别问题，并呼吁更明确地区分不同标准，其中聚焦于 “忠实性” 标准。通过调查已有研究文献，将现有方法分为三种假设，并提供了具体指南来评估解释方法。最后，提出当前的 “忠实性” 定义是不真实的二元概念，呼吁使用更优选的渐进性概念。

Apr, 2020

长篇医疗记录摘要忠实性计量方法的元评估

本研究基于 HIV 病人的病例史，对临床文本摘要的可信度指标进行评估，从医学专业人员和患者两方面来获得实际应用价值。评估表明，大多数指标在提供与源文本相关的最小信息上，可显著提高其与人类判断的相关性。

Mar, 2023

评估本地解释的忠实度框架

本文研究了解释系统与预测模型的准确性。通过引入两个属性：一致性和充分性，并介绍了表示它们持有程度的量化度量方式。实验表明这些措施取决于测试数据的分布，并提供了估计器和样本复杂度界限以确定黑盒解释系统的准确性。

Feb, 2022

关于 XAI 的保真度度量的综合研究

使用透明模型决策树作为基准，研究提出了一种新的测度指标验证 XAI 方法的准确性，结果显示了现有的测度指标在真实场景中不可靠，并建议开发新的指标以解决这些问题。

Jan, 2024

传统机器学习模型解释方法比较 Part 2：量化模型解释可信度及通过降维改善

本研究评估了多种特征排序方法的忠实度，并量化了限制相关特征对解释能力提高的影响，发现促进特征解释的方法在特征相关性降低后最具忠实度。

Nov, 2022

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024