对大型语言模型的对比解释方法

Jun, 2024

CELL your Model: Contrastive Explanation Methods for Large Language Models

Ronny Luss, Erik Miehling, Amit Dhurandhar

TL;DR通过黑盒 / 查询访问，我们提出了两种对比解释方法：一种是效率较高但需要多次模型调用的近视算法，另一种是主要算法贡献的预算算法。我们展示了这些方法在不同自然语言任务中的有效性，例如开放文本生成、自动红队战术和解释对话衰退。

Abstract

The advent of black-box deep neural network classification models has sparked the need to explain their decisions. However, in the case of generative AI such as large language models (LLMs), there is no class prediction to explain. Rather, one can ask why an →

black-box deep neural network contrastive explanation methods llm myopic algorithm budgeted algorithm

发现论文，激发创造

利用对比解释解读语言模型

该研究关注对语言模型的对比解释，证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的，并且可以表征模型在各种语言生成决策中使用的输入令牌。

Feb, 2022

使用对比上下文学习自定义语言模型回复

利用对照性示例来提高大型语言模型对我们的意图的理解以及生成内容的能力，在合成和真实数据集上的实验证明该方法显著提升了性能。

Jan, 2024

LLM 生成的黑盒解释在对抗场景中具备帮助性

当解答复杂问题时，大型语言模型（LLMs）作为数字助手成为重要工具，然而我们的研究揭示了这种方法中隐藏的风险，称之为 “对抗性有益性”，即 LLMs 的解释使错误答案看起来正确，潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略，揭示出 LLMs 在这方面存在的问题，并通过基于图形导航的特殊任务，验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性，并提供了如何安全使用 LLMs 作为解释器的建议。

May, 2024

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

模型可解释性的对照解释

该研究提出了一种利用潜空间对分类模型进行对比解释的方法，可以对输入的文本进行高、低级别的概念和属性归纳分析，以实现更准确、细粒度的模型可解释性。

Mar, 2021

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

语言模型作为反事实解释模块：ChatGPT 能否解释黑盒文本分类器？

使用大型语言模型作为反事实解释模块，通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体，显示了在不同设置下这些模型的性能差异，其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统，潜在地减少人工工作量。

Sep, 2023

有效上下文学习的互补解释

本文研究大型语言模型在上文环境学习中如何利用解释，通过研究计算跟踪和语言表达对影响解释的有效性，我们发现两种因素对于解释的有效性都起重要作用，同时提出了一种基于最大边际相关性的样本选择方法，以构建既相关又补充的样本集，成功提高了大型语言模型在多个真实世界任务上的上下文学习性能。

Nov, 2022