生成语言模型的多层解释

Mar, 2024

Multi-Level Explanations for Generative Language Models

Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss...

TL;DR我们提出了一个名为 MExGen 的通用框架，可以扩展文本分类中的扰动解释方法（如 LIME 和 SHAP）以应对生成语言模型的挑战，该框架可用于不同的归因算法，并通过标量化器将文本映射到实数处理文本输出，同时采用多层级方法处理长输入，通过从粗粒度到细粒度的方式专注于具有模型查询线性扩展的算法，并进行系统评估，结果表明我们的框架能够提供更本地准确的生成输出解释。

Abstract

perturbation-based explanation methods such as LIME and SHAP are commonly applied to text classification. This work focuses on their extension to generative language models. To address the challenges of text as o

perturbation-based explanation methods generative language models mexgen text output long inputs

发现论文，激发创造

模型无关 NLP 可解释性中解释的粒度

通过对复杂的基于 BERT 的分类器使用基于段落的方法，本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性，大大提高了基准分类任务的解释保真度。

Dec, 2020

TextGenSHAP: 长文本生成中的可扩展后验解释

TextGenSHAP 是一个高效的事后解释方法，该方法结合了 LM 特定技术，通过减少处理时间、提供局部化重要词语和句子的能力以及增强选择性片段和最终回答的准确性，显著提高了大型语言模型的性能。

Dec, 2023

MaNtLE：无需模型的自然语言解释器

本文介绍了 MaNtLE，一个模型无关的自然语言解释器，在结构化分类任务中分析多个分类器预测，并生成忠实的自然语言解释器，模拟的用户研究表明，MaNtLE 生成的解释器平均比 LIME 和 Anchors 解释器忠实度高至少 11％。

May, 2023

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

解释 Transformer 如何利用上下文来建立预测

本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程，并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性，结果表明我们的方法具有更好的表现。最后，我们将该方法应用于神经机器翻译模型，并展示了生成人类相似的源 - 目标对齐结果的能力。

May, 2023

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

逻辑支架：使用 LLMs 进行个性化方面指导的推荐解释生成

利用大型语言模型的独特能力，本文提出一种名为 Logic-Scaffolding 的框架，通过中间推理步骤结合方面解释和思维链提示的思想生成解释，以解决现有模型在零 - shot 解释上的困难。

Dec, 2023

语言模型作为反事实解释模块：ChatGPT 能否解释黑盒文本分类器？

使用大型语言模型作为反事实解释模块，通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体，显示了在不同设置下这些模型的性能差异，其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统，潜在地减少人工工作量。

Sep, 2023

SyntaxShap: 一种文本生成的语法感知解释性方法

为了在安全关键领域利用大型语言模型的力量，我们需要确保其预测的可解释性。本文介绍了 SyntaxShap，一种针对文本生成的局部、模型无关的可解释性方法，考虑了文本数据中的句法结构。通过扩展 Shapley 值来考虑基于解析的句法依赖关系，SyntaxShap 只考虑受依赖树约束的联盟。我们采用基于模型的评估方法，比较 SyntaxShap 及其加权形式与适用于文本生成任务的最先进的可解释性方法，包括忠实度、复杂性、连贯性以及解释与模型的语义对齐等多个度量标准。我们表明，我们的句法感知方法能够生成更忠实、连贯和可解释的预测解释，适用于自回归模型。

Feb, 2024