模型是否自我解释：自然语言解释的反事实仿真性

Jul, 2023

模型是否自我解释：自然语言解释的反事实仿真性

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

Yanda Chen, Ruiqi Zhong, Narutatsu Ri, Chen Zhao, He He...

TL;DR本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Abstract

large language models (LLMs) are trained to imitate humans to explain human decisions. However, do LLMs explain themselves? Can they help humans build mental models of how LLMs process different inputs? To answer these questions, we propose to evaluate $\textbf{→

large language models counterfactual simulatability precision generality factual reasoning

发现论文，激发创造

大型语言模型作为反事实生成器：优缺点

本研究探究了大型语言模型（LLMs）进行反事实生成和数据增强的能力，发现 LLMs 很有效的进行反事实生成，但因为自身限制和缺少实用逻辑指导，在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时，研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实，说明演示主要用于规范输出格式。因此，基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。

May, 2023

语言模型作为反事实解释模块：ChatGPT 能否解释黑盒文本分类器？

使用大型语言模型作为反事实解释模块，通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体，显示了在不同设置下这些模型的性能差异，其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统，潜在地减少人工工作量。

Sep, 2023

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

用于生成和评估逆事实的 LLMs：一项全面研究

NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估，发现 LLMs 生成流利但改动较大的反事实样本，数据增强效果与人工生成的样本相比有明显差距。此外，LLMs 对偏标签数据的评估表现出明显的偏向性，而 GPT4 对此偏见更加稳健，并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制，并指出了未来的研究方向。

Apr, 2024

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

忠实性与可信度：大型语言模型解释的（不）可靠性

大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。

Feb, 2024

利用反事实任务评估大型语言模型的类比推理能力

研究表明，尽管大型语言模型在类比推理方面表现出色，但它们缺乏人类类比能力的鲁棒性和普遍性。

Feb, 2024