LLM 生成的解释的属性和挑战

Feb, 2024

Properties and Challenges of LLM-Generated Explanations

Jenny Kunz, Marco Kuhlmann

TL;DR大语言模型的自我合理化能力在受限环境下得到了探索，当前的语言模型不仅依赖特定注释数据，还经常对其输出进行解释，生成的解释具有人类解释的常见属性。通过对多领域训练数据集的输出进行分析，我们发现生成的解释表现出选择性和包含说明性元素，但不太主观或误导性，我们讨论了这些属性存在与缺失的原因和后果，特别是根据自我合理化系统的目标和用户群体，概述了正面和负面的影响。

Abstract

The self-rationalising capabilities of large language models (LLMs) have been explored in restricted settings, using task/specific data sets. However, current LLMs do not (only) rely on specifically annotated dat

large language models self-rationalising capabilities explanations pre-training corpus instruction fine-tuning

发现论文，激发创造

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

LLM 生成的黑盒解释在对抗场景中具备帮助性

当解答复杂问题时，大型语言模型（LLMs）作为数字助手成为重要工具，然而我们的研究揭示了这种方法中隐藏的风险，称之为 “对抗性有益性”，即 LLMs 的解释使错误答案看起来正确，潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略，揭示出 LLMs 在这方面存在的问题，并通过基于图形导航的特殊任务，验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性，并提供了如何安全使用 LLMs 作为解释器的建议。

May, 2024

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

语言模型能解释其分类行为吗？

本文研究大型语言模型 (Large language models, LLMs) 是否能够给出对其内部过程的忠实的高级解释。通过引入 ArticulateRules 数据集，探讨 LLMs 在匹配其分类行为的自由形式的自然语言解释方面的准确性。通过评估一系列 LLMs，展示了模型之间的解释准确性有很大的差异，尤其是从 GPT-3 到 GPT-4 有明显的提高。研究人员还通过一些方法探讨了如何提高 GPT-3 的解释准确性，并在此基础上发布了 ArticulateRules 数据集，可用于测试在上下文中或通过微调训练的 LLMs 的自我解释能力。

May, 2024

逻辑支架：使用 LLMs 进行个性化方面指导的推荐解释生成

利用大型语言模型的独特能力，本文提出一种名为 Logic-Scaffolding 的框架，通过中间推理步骤结合方面解释和思维链提示的思想生成解释，以解决现有模型在零 - shot 解释上的困难。

Dec, 2023

通过概率推理实现逻辑一致的语言模型

通过引入基于原则的概率推理训练目标，本研究改进了大型语言模型的逻辑一致性和新知识推理能力。

Apr, 2024