概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

Apr, 2024

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models

PDF

Noah Y. Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz

TL;DR评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Abstract

In order to oversee advanced ai systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning

advanced ai systems large language models faithfulness tests correlational explanatory faithfulness counterfactual test

发现论文，激发创造

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

自然语言解释的忠实度测试

本文探讨评估自然语言解释（NLEs）忠实度的挑战性问题，提出了两个测试：第一个是插入导致反事实预测的原因的反事实输入编辑器，第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型，是开发忠实 NLE 的基本工具。

May, 2023

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

串联思维不忠诚的伪装准确性

理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。在评估模型大小与忠实度的关系时，我们发现存在着一种扩大然后逆向缩小的关系，而 130 亿参数模型比其大小范围在 8.1 亿到 1750 亿参数的模型表现出更高的忠实度。然而，我们还发现仅仅改变提示中答案选择的顺序就能将该度量缩小 73 百分点。该忠实度度量与准确性也高度相关（$R^2=0.91$），这对于评估忠实度的有效性产生了疑虑。

Feb, 2024

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

基准测试忠实度：关于在视觉语言任务中实现准确的自然语言解释

本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求，提出了三种可信度测量方法，并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。

Apr, 2023

基于逆向推理的合理性的自然语言推理中具体例子的逻辑可满足性

本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证，无需额外的训练验证模型。

May, 2022

基于概念的解释的可读性和忠实度评估

使用概念可信度和可读性作为评估概念解释的方法，通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估，验证并选择概念评估措施。

Apr, 2024