自然语言解释的忠实度测试

May, 2023

Faithfulness Tests for Natural Language Explanations

Pepa Atanasova, Oana-Maria Camburu, Christina Lioma, Thomas Lukasiewicz, Jakob Grue Simonsen...

TL;DR本文探讨评估自然语言解释（NLEs）忠实度的挑战性问题，提出了两个测试：第一个是插入导致反事实预测的原因的反事实输入编辑器，第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型，是开发忠实 NLE 的基本工具。

Abstract

explanations of neural models aim to reveal a model's decision-making process for its predictions. However, recent work shows that current methods giving →

neural models explanations natural language explanations counterfactuals model evaluation

发现论文，激发创造

基准测试忠实度：关于在视觉语言任务中实现准确的自然语言解释

本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求，提出了三种可信度测量方法，并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。

Apr, 2023

基于逆向推理的合理性的自然语言推理中具体例子的逻辑可满足性

本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证，无需额外的训练验证模型。

May, 2022

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

反事实编辑器的反事实分析：一种基于回译的方法

通过提出一个新的反向翻译的评估方法，我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析，并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。

May, 2023

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

略施推力，NLI 模型可鲁棒高效地预测忠实度

本文提出了一种利用数据增强和鲁棒推理过程将单纯的 NLI 模型用于预测语言模型忠实度的方法，应用于 TRUE 基准来说效果显著且计算代价较小。

May, 2023

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

好看但缺乏忠诚：通过趋势测试理解局部解释方法

通过对传统的可解释性测试进行评估，发现在复杂数据方面存在随机优势问题。为了解决这个问题，我们提出了三种基于趋势的可信度测试，并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法，从中获得了前所未有的发现，启发了未来的研究。同时，可信度测试也极大地提高了下游任务的效果。例如，配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。

Sep, 2023