朝着忠实可解释的自然语言处理系统迈进：我们应该如何定义和评估忠实性？

ACLApr, 2020

朝着忠实可解释的自然语言处理系统迈进：我们应该如何定义和评估忠实性？

Towards Faithfully Interpretable NLP Systems: How should we define and evaluate faithfulness?

Alon Jacovi, Yoav Goldberg

TL;DR本文探讨了深度学习基础下的 NLP 模型识别问题，并呼吁更明确地区分不同标准，其中聚焦于 “忠实性” 标准。通过调查已有研究文献，将现有方法分为三种假设，并提供了具体指南来评估解释方法。最后，提出当前的 “忠实性” 定义是不真实的二元概念，呼吁使用更优选的渐进性概念。

Abstract

With the growing popularity of deep-learning based nlp models, comes a need for interpretable systems. But what is interpretability, and what constitutes a high-quality interpretation? In this opinion piece we re

deep learning nlp interpretability evaluation faithfulness

发现论文，激发创造

自然语言处理中的模型解释的敏感性和稳定性

该研究提出两个衡量 NLP 模型判断过程解释准确性的新标准，即灵敏度和稳定性，并引入了一种新的基于对抗性鲁棒性的解释方法，证明了其在相应标准下的优越性。还应用该方法和度量标准在依赖分析中。

Apr, 2021

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022

对自然语言处理中可解释性度量的质疑：对谁忠诚？

该研究论文探讨了模型可解释性的常见方法，并指出了当前的可信度度量指标的局限性以及合理利用它们的关键考虑因素。

Aug, 2023

忠诚与可信性是否相冲突？在自然语言处理任务中的可解释人工智能的经验研究

通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较，我们的研究表明，传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性，与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向，以实现准确度和用户可理解性的双重提高。

Mar, 2024

一个基于定义导向的流程：用于解释性评估

在自然语言处理模型的可解释性问题上，我们需要定义一个明确的解释定义，以及评估方式，同时需要注意评估指标可能会带来评估偏见，影响解释方法的选择。

Sep, 2020

自然语言生成中的忠实度：分析、评估和优化方法的系统调查

本文系统综述了自然语言生成（NLG）的忠实度问题和相关评估方法和优化方法，并将不同任务的评估和优化方法组织在一个统一的分类中，以促进不同任务之间的比较和学习。

Mar, 2022

模型解释性方法忠实度度量的比较研究

在研究机器学习模型内部推理过程的解释方法越来越受到关注的今天，我们发现不同的忠诚度评估指标在比较不同的解释时显示出冲突的偏好，因此我们旨在对广泛采用的忠诚度指标进行全面而比较的研究，并引入两个评估维度：诊断性和时间复杂性，根据实验结果，我们发现足够性和综合性指标具有更高的诊断性和更低的时间复杂度。

Apr, 2022

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

基准测试忠实度：关于在视觉语言任务中实现准确的自然语言解释

本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求，提出了三种可信度测量方法，并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。

Apr, 2023

基于概念的解释的可读性和忠实度评估

使用概念可信度和可读性作为评估概念解释的方法，通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估，验证并选择概念评估措施。

Apr, 2024