利用对比解释解读语言模型

Feb, 2022

Interpreting Language Models with Contrastive Explanations

Kayo Yin, Graham Neubig

TL;DR该研究关注对语言模型的对比解释，证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的，并且可以表征模型在各种语言生成决策中使用的输入令牌。

Abstract

model interpretability methods are often used to explain nlp model decisions on tasks such as text classification, where the output space is relatively small. However, when applied to →

model interpretability nlp language generation contrastive explanations grammatical phenomena

发现论文，激发创造

模型可解释性的对照解释

该研究提出了一种利用潜空间对分类模型进行对比解释的方法，可以对输入的文本进行高、低级别的概念和属性归纳分析，以实现更准确、细粒度的模型可解释性。

Mar, 2021

对大型语言模型的对比解释方法

通过黑盒 / 查询访问，我们提出了两种对比解释方法：一种是效率较高但需要多次模型调用的近视算法，另一种是主要算法贡献的预算算法。我们展示了这些方法在不同自然语言任务中的有效性，例如开放文本生成、自动红队战术和解释对话衰退。

Jun, 2024

宁愿是护士也不是医生 -- 对比解释的调查研究

对四个英文文本分类数据集进行分析，通过三种不同规模的模型以及三种后期解释性方法，验证了模型解释和人类解释在对比性和非对比性设置下的一致性。

Oct, 2023

对比短语突出解释：辅助人类发现翻译差异的案例研究

基于对比方式生成强调对预测结果解释的相似指标，该技术比流行的事后重要性技术更好地匹配了人类的跨语义差异解释，并成功地帮助人们检测到人工翻译和机器翻译错误的细微语义差异。

Dec, 2023

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

对比解释：结构模型方法

本文提出了一种使用结构因果模型的对比解释模型，将其应用于分类和规划两个经典问题，以帮助人们更好地理解人工智能中的对比解释。

Nov, 2018

使用高影响概念解释语言模型的预测

本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

May, 2023

提供常识推理任务的对比解释

本研究证明了在使用预训练语言模型进行通识推理任务时，使用对比性的解释来完成解释提示可以提高性能并获得更准确的结果，同时提高人类可理解性。

Jun, 2021

模型无关 NLP 可解释性中解释的粒度

通过对复杂的基于 BERT 的分类器使用基于段落的方法，本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性，大大提高了基准分类任务的解释保真度。

Dec, 2020

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021