大型语言模型能自我解释吗？

Jan, 2024

Can Large Language Models Explain Themselves?

Andreas Madsen, Sarath Chandar, Siva Reddy

TL;DR利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Abstract

Instruction-tuned large language models (LLMs) excel at many tasks, and will even provide explanations for their behavior. Since these models are directly accessible to the public, there is a risk that convincing and wrong explanations can lead to unsupported confidence in LLMs. Theref

large language models interpretability-faithfulness self-explanations self-consistency checks faithfulness

发现论文，激发创造

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

模型是否自我解释：自然语言解释的反事实仿真性

本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Jul, 2023

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

基于概念的解释的可读性和忠实度评估

使用概念可信度和可读性作为评估概念解释的方法，通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估，验证并选择概念评估措施。

Apr, 2024

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

LLM 生成的解释的属性和挑战

大语言模型的自我合理化能力在受限环境下得到了探索，当前的语言模型不仅依赖特定注释数据，还经常对其输出进行解释，生成的解释具有人类解释的常见属性。通过对多领域训练数据集的输出进行分析，我们发现生成的解释表现出选择性和包含说明性元素，但不太主观或误导性，我们讨论了这些属性存在与缺失的原因和后果，特别是根据自我合理化系统的目标和用户群体，概述了正面和负面的影响。

Feb, 2024