基于潜在概念的自然语言处理模型解释

Apr, 2024

基于潜在概念的自然语言处理模型解释

Latent Concept-based Explanation of NLP Models

Xuemin Yu, Fahim Dalvi, Nadir Durrani, Hassan Sajjad

TL;DR通过引入潜在概念归因方法（LACOAT），该研究针对深度学习模型的预测提供了基于潜在概念的解释，解决了由于词语离散性和缺乏语境信息而导致的以往解释的不充分问题。

Abstract

Interpreting and understanding the predictions made by deep learning models poses a formidable challenge due to their inherently opaque nature. Many previous efforts aimed at explaining these predictions rely on

deep learning models opaque nature latent concept attribution method latent concepts context-based explanations

发现论文，激发创造

使用高影响概念解释语言模型的预测

本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

May, 2023

ConceptX：潜在概念分析框架

该研究提出了 ConceptX 人在循环框架，用于解释深度语言模型中预训练隐藏表达空间，并提供自动生成的基于语言本体论的概念注释，以表示这些模型中学习到的隐含概念，从而帮助注释人员标记模型中的偏见。

Nov, 2022

通过概念特定的解释揭示分割和物体检测中的隐藏上下文偏差

本文提出了后续可解释的人工智能方法 L-CRP，可以生成更细致的解释，自动识别和可视化模型在推理过程中学习、识别和使用的相关概念，并在输入空间中精确定位它们，进而揭示和验证背景特征的使用和存在，并说明对各个流行数据集的效果。

Nov, 2022

通过潜在空间分解揭示独特的概念向量

该论文提出一种后期无监督方法，通过分解和聚类方法，自动发现深度学习模型中的概念向量，从而支持可解释性分析，可以成功鉴别与疏离数据有关的训练样本

Jul, 2023

神经网络的以人为本的概念解释

该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Feb, 2022

利用大型语言模型探索隐藏世界

COAT utilizes large language models to extract potential causal factors from unstructured data and assists in uncovering underlying causal systems.

Feb, 2024

理念的理性化

提出一种自我解释模型 ConRAT，它从输入文本中提取概念，并使用关键概念的线性聚合来解释结果，以可解释性和预测性能方面超越了最先进的方法。

May, 2021

自动基于概念的解释

提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Feb, 2019

通过干预解释潜空间

本研究通过使用干预机制，利用离散变分自编码器来转移预测类别，进而可视化任何隐藏层的编码信息和对应的被干预表示来揭示深度神经网络的隐含概念，并通过评估原始表示与被干预表示之间的差异来确定可改变类别的概念，从而提高模型的可解释性。我们在 CelebA 数据集上展示了我们方法的有效性，并展示了有偏差数据的各种可视化并提供不同的干预方法来揭示和更正偏见。

Dec, 2021

利用潜在特征进行本地解释

本研究探讨了一种利用潜在特征产生对照解释的新方向，通过添加新特征改变分类结果的方法进行预测的解释，证明了该方法在样本丰富的数据集上产生的直观解释优于其他方法，并可作为目前最先进的解释性方法的补充。

May, 2019