忠实性与可信度：大型语言模型解释的（不）可靠性

Feb, 2024

忠实性与可信度：大型语言模型解释的（不）可靠性

Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models

Chirag Agarwal, Sree Harsha Tanneru, Himabindu Lakkaraju

TL;DR大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Abstract

large language models (LLMs) are deployed as powerful tools for several natural language processing (NLP) applications. Recent works show that modern LLMs can generate self-explanations (SEs), which elicit their

large language models self-explanations faithfulness plausibility high-stakes decision-making

发现论文，激发创造

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

忠诚与可信性是否相冲突？在自然语言处理任务中的可解释人工智能的经验研究

通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较，我们的研究表明，传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性，与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向，以实现准确度和用户可理解性的双重提高。

Mar, 2024

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022

通过多智能体辩论实现忠实可解释的事实核查

我们的研究调查了大型语言模型生成解释的能力，发现零样本提示通常导致不忠实的结果。为了解决这些挑战，我们提出了多代理辩论修正（MADR）框架，利用多个具有不同角色的大型语言模型作为代理，在迭代的修饰过程中提高了生成解释的忠实性。MADR 确保最终的解释经过严格验证，显著降低了不忠实元素的可能性，并与提供的证据紧密相符。实验证明，MADR 显著提高了大型语言模型生成解释与证据的忠实性，提升了这些解释的可信度和可靠性。

Feb, 2024

基于概念的解释的可读性和忠实度评估

使用概念可信度和可读性作为评估概念解释的方法，通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估，验证并选择概念评估措施。

Apr, 2024

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

模型是否自我解释：自然语言解释的反事实仿真性

本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Jul, 2023

自然语言解释的忠实度测试

本文探讨评估自然语言解释（NLEs）忠实度的挑战性问题，提出了两个测试：第一个是插入导致反事实预测的原因的反事实输入编辑器，第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型，是开发忠实 NLE 的基本工具。

May, 2023