使用高影响概念解释语言模型的预测

May, 2023

使用高影响概念解释语言模型的预测

Explaining Language Models' Predictions with High-Impact Concepts

Ruochen Zhao, Shafiq Joty, Yongjie Wang, Tan Wang

TL;DR本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

Abstract

The emergence of large-scale pretrained language models has posed unprecedented challenges in deriving explanations of why the model has made some predictions. Stemmed from the compositional nature of languages, spurious correlations have further undermined the trustworthiness of

pretrained language models nlp interpretability high-level features evaluation metrics

发现论文，激发创造

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

自动基于概念的解释

提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Feb, 2019

利用对比解释解读语言模型

该研究关注对语言模型的对比解释，证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的，并且可以表征模型在各种语言生成决策中使用的输入令牌。

Feb, 2022

通过概念瓶颈解读预训练语言模型

利用高层次、易于理解的概念来解释预训练语言模型的方法，通过人工标注和机器生成的概念来提取隐藏神经元，从而增强模型的鲁棒性和解释能力。

Nov, 2023

基于潜在概念的自然语言处理模型解释

通过引入潜在概念归因方法（LACOAT），该研究针对深度学习模型的预测提供了基于潜在概念的解释，解决了由于词语离散性和缺乏语境信息而导致的以往解释的不充分问题。

Apr, 2024

自解释结构提高自然语言处理模型

本论文提出了一种简单而通用的自说明深度学习模型的框架，通过添加一个解释层来聚合不同文本段落的信息并赋予权重，不需要额外的诱导模型，可以为高层次的文本单元提供直接的重要性评分，并在 SST-5 和 SNLI 数据集上取得了新的最好表现。

Dec, 2020

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

神经文本分类的分层解释

本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint，它可以自动生成按标签关联的话题的模型预测解释，实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当，而且生成的解释比其他可解释的神经文本分类器更符合模型预测，并且更易于被人类理解。

Feb, 2022

LLM 模型的概念归纳：用于评估的用户实验

通过利用 GPT-4 的领域知识和常识能力，我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力，并通过人类研究评估了其有效性。

Apr, 2024